如果你是一个网上冲浪老手,一定还记得2000年左右在门户网站浏览新闻的体验:
你需要从一堆花花绿绿的广告当中识别真正的内容,并精准点击。看得不准,或者点得不准,都会让你被即刻送往另一个不想去的网站。可以说,识别垃圾信息、避开它们,是彼时网上冲浪的必备技能。
如今,AI的发展让人梦回千禧年,在亚马逊搜索电子书,要时刻警惕被AI生成的垃圾书骗。
食之无味就算了,有的垃圾书甚至想置人于死地。
比如在亚马逊上公开出售的电子书《野生蘑菇烹饪书:从森林到餐盘,野生蘑菇烹饪完全指南》《西南地区的顶级蘑菇野外指南》,书里明晃晃写着用“气味和味道”识别不同的蘑菇。
闻一闻或者尝一尝,就能知道蘑菇的种类啦!这种话,随便拉来一个云南人都能鉴别为一派胡言。正如蘑菇界的名言所说:所有蘑菇都是可食用的,不过有些蘑菇只能食用一次。
相关专家在接受《卫报》采访的时候几乎发出尖锐爆鸣:“这似乎在鼓励人们以品尝作为辨别方法。绝对不应该这么做。”
书中提到的一些蘑菇则“很刑”。比如上述烹饪指南中提到的“狮鬃菌”,虽然是可食用的,但在英国是受保护的物种。别问,问就是狮鬃菌尝起来像缝纫机的味道。
根据专做AI文本识别的公司Originality.ai的检测,这两本书的样本中人工智能检测得分是100%,这意味着系统很自信这些书由如ChatGPT这样的聊天机器人编写。
这些书被报道之后,纽约真菌学会都出面发X(前Twitter),呼吁人们“请只购买已知作者和美食家的书籍,这可能关系到生死”。
我们在去年2月就曾经报道过一些人开始通过ChatGPT等工具撰写书籍,并放到亚马逊等网站上售卖的现象。如今一年多过去,AI高速发展,亚马逊显然还没有找到有力的方法杜绝这一现象,这家老牌电子书网站正在被AI搅乱。
01
让我们来捋一下时间线。
2022年11月,ChatGPT横空出世。仅仅几个月之后,亚马逊上就开始出现一些疑似由AI撰写的书籍。除了内容和封面都粗制滥造之外,最明显的反常信号是一个作者一天出版数本书。
彼时在YouTube上已经开始有博主在视频教学如何用ChatGPT写书并在亚马逊上售卖。
从2023年年中开始,包括VICE、WIRED(《连线》)等在内的媒体开始报道“AI图书正在淹没亚马逊”的现象。
根据独立作家凯特林·林奇(Caitlyn Lynch)2023年6月的统计,彼时亚马逊上“青少年浪漫”的类型下,畅销排行榜的前100本电子书中,有约八成都是语无伦次的,看起来很像是AI生成的。
一直到如今,还不断有作者站出来公开谈论AI图书对他们个人IP的盗用与模仿。
也就是说,除了某些类型成为AI图书的重灾区之外,一些作者——尤其是有名气的作者——会被“影子图书”蹭流量。这种情况大多发生在新书发售的黄金周期内,和作者相关的传记、与新书高度相似的仿品大量出现,试图在宣传期蒙骗不明真相的用户,窃取流量。
一个新鲜的例子来自知名科技记者卡拉·斯威舍(Kara Swisher)。
卡拉在科技报道界德高望重,今年已经62岁,几乎把科技界大佬都采访了个遍。包括但不限于数次深度对话史蒂夫·乔布斯、埃隆·马斯克、马克·扎克伯格等。
今年初,卡拉出版了一本个人回忆录《燃烧的书(Burn Book)》。但她很快就发现,当她在亚马逊检索自己时,除了自己的新书,还出现了一些奇怪的东西。比如《卡拉·斯威舍:硅谷的斗牛犬》《卡拉·斯威舍:她如何成为硅谷最具影响力的记者》等,其中一本书的作者在一个月里就“写”了四本传记。
在卡拉看来,这些明显是窃取新书流量的AI图书,气愤的她甚至给亚马逊CEO安迪·杰西(Andy Jassy)发了一条短信:“这**是怎么回事?你在浪费我的钱。”
美国作家协会的CEO表示,亚马逊上的欺诈书籍其实一直都是一个问题,但最近几个月这个问题愈发尖锐,可能是因为在AI帮助下造书成本降低:“每一本新书似乎都有配套的各种书出现,试图窃取销售额。”
图书“盗窃”不仅发生在新书作者身上。另一位作家梅勒妮·米切尔(Melanle Mitchell)在2019年发表《人工智能:思考人类指南》一书,最近却发现在亚马逊搜索这本书时,出现了去年9月发表的同名电子书。
这本同名电子书只有45页,用坑坑巴巴、笨拙的语言重复米切尔的观点,看起来是一部写得不怎么样的摘要。而该书作者在亚马逊上没有头像,也没有简介,名下却有几十本类似的书,都是对其他书籍的总结式模仿。
深度伪造检测公司Reality Defender帮米切尔检测了一下,果然那本同名电子书有99%的可能是由AI生成的。
Reality Defender还顺便检测了一下“AI教母”李飞飞著作《我眼中的世界》在亚马逊上的模仿者。与米切尔的模仿书不同,在亚马逊搜索李飞飞《我眼中的世界》,会出现十几本写明自己是“摘要”的电子书。经检测,这些书也大概率是AI生成的。不过虽然写着自己是“摘要”,实际内容则更像是用AI重写了一遍原作,就像是“XXX书·儿童版”。
在《连线》杂志联系李飞飞,告知她这一现象后,她回复了一个“脑袋爆炸”的emoji表情,显然在此之前对有人在偷偷用AI模仿自己的书一无所知。
02
亚马逊也并不是什么都没做,但动作显得有些迟缓,效果也有限。
去年8月,简·弗里德曼(Jan Fridman)向亚马逊和美国“豆瓣”Goodreads开炮。弗里德曼是出版业的专家,曾在多家知名出版公司担任高管,也有自己的博客,时不时发布对出版业的见解和实用建议。
她在自己的博客发表文章《我宁愿看到我的书被盗版,也不愿意看到这个》,表示在亚马逊上有数本署名Jane Fridman但与她无关的书籍,更要命的是美国“豆瓣”Goodreads还将这些书籍放到了她的相关页面。
也就是说,一个不熟悉弗里德曼的读者,很有可能在对照了亚马逊和Goodreads之后,认为那些仿冒品出自她之手。而这些作品内容拙劣,足以对弗里德曼造成名誉上的打击。
更令弗里德曼不悦的是,当她联系亚马逊和Goodreads,试图让其下架仿冒书籍的时候,遭到了两个平台的拒绝。亚马逊要求她提供相关的商标注册证明,而弗里德曼被冒用的实际上是自己的名字,而她并未对自己的名字进行商标注册(谁会想到去注册自己的名字呢)。
有意思的是,在弗里德曼发表博文公开吐槽这件事后不久,亚马逊和Goodreads就悉数移除了仿冒作品。
弗里德曼感叹:“我敢肯定,这很大程度上拜赐于我在写作和出版界的知名度与名誉。如果这些情况发生在比较小的作者身上,他们(平台)会怎么做?”
弗里德曼的发声引发了一连串的反应。先是美国作家协会宣布会为作者们提供帮助,而后美国联邦贸易委员会(FTC)也发表了一篇文章,涉及生成性人工智能和图书销售,表明他们正在密切关注相关问题。
去年9月,在弗里德曼发表博文后一个月,亚马逊开始打击AI图书。它修改了规则,将自助出版(Kindle Direct Program,下称KDP)同作者每日上传书籍的数量从无限制更改为最多三本。
KDP本就是AI图书的重灾区。通过KDP,作者可以绕过传统出版途径,直接将作品发表在亚马逊上并进行销售。理论上,亚马逊一直都未禁止AI生成的文本销售,而是要求作者标明,且不能产生危害。
亚马逊还声明,正在积极监测AI的发展以及随后对阅读、写作和出版的影响。
但从今年还在不断出现作家新书被AI截胡的事件来看,亚马逊显然做得还不够好。
03
一个奇怪的现象是,虽然亚马逊上充斥着疑似AI生成的图书,但大部分此类图书并没有什么销量。
究竟是什么在推波助澜?
人们对AI工具的确愈发熟悉,这也就促成了一些人有了想要通过AI写书赚钱的想法。
一个有点惊人的数字是,Statista报告说,23%的美国作者在作品中使用了AI,近50%的受访作者表示他们曾用AI作语法工具,还有10%的受访者表示AI生成了他们的全部文稿。
知名媒体Vox指出,真正依靠“AI图书”赚钱的,很可能不是那些把AI图书放在亚马逊上出售的“作者”,而是开课教授“如何用AI图书赚钱”的人。
亚马逊的自出版业务KDP于2007年推出,早在2010年前后,关于如何利用自出版赚钱的课程如“自助出版革命”就如雨后春笋般冒出来。
在学习“自助出版革命”的若干学生中,有一对米科尔森(Mikkelsen)双胞胎兄弟做得很成功,他们自出版了一本又一本垃圾书,还创新地利用谷歌翻译制作外文书籍,进一步扩大了销路,收入一度达到百万美元。但最终,由于买家投诉,他们的KDP账户被封锁,于是二人创业,也开始兜售相关课程。
有意思的是,他们的课程名称一路从“有声书影响学院”“出版生活”,到如今的“AI出版学院”。兄弟俩的课程原价6000美元,但往往会“限时打折”到2000美元左右。
上过“AI出版学院”课程的学生透露,2000美元只是敲门费。一旦开始上课,就会发现后续几乎所有环节都会交费。首先,兄弟俩会收取AI撰写大纲的AI服务费,而后是人工代写费用(接活的代写公司也是由兄弟俩的学生所有),接着还会有有声书制作费用,以及刷好评的费用。
如果学生想要完整地跟完整个课程,费用会从最初的2000美元激增到7800美元。
虽然交学费前,“AI出版学院”承诺不满意就会退款,但当学生真的要退款时,学院要求其提供完成了全部课程、出版了书籍并没能把学费赚回来的证明。
根据Inc.的一篇报道,米科尔森兄弟的公司收入从2019年的30万美元,已经激增到了2022年的5000万美元。截至目前,他们的公司仍然运营着(毕竟好像的确没有违法)。
AI图书搅乱亚马逊,“坏”的却不是AI,而是背后无视规则无视道德的那批AI用户。
将视角拉远,我们正处在AI内容与人类内容混杂的时代,一场“AI狼人杀”时刻在互联网中上演。根据互联网安全公司Imperva的报告,2023年,全球互联网流量中有49.6%来自机器人,而在2019年,这个数字还只有37.2%。
高效、准确、全面地甄别AI内容已经成为一个亟待解决的难题。