搜索明星公司曝丑闻:技术违规无新意极易产生机器幻觉
划重点:
腾讯科技讯据国外媒体报道,PerplexityAI,作为人工智能搜索领域的创新者,凭借其前瞻性的愿景和坚实的资金基础,迅速在行业中占据了一席之地。该公司的投资者包括亚马逊创始人杰夫·贝索斯(JeffBezos)家族基金、英伟达、以及知名投资人巴拉吉·斯里尼瓦桑(BalajiSrinivasan)等。
Perplexity的产品——一款能够实时访问互联网并用自然语言流畅回答问题的聊天机器人——被首席执行官阿拉文德·斯里尼瓦桑(AravindSrinivasan)形象地称为"答案引擎"。在Perplexity即将以10亿美元的高估值完成融资之际,斯里尼瓦桑进一步阐释了产品的独特之处,称其为"维基百科和ChatGPT的完美结合"。后来在面对外界对内容原创性的质疑时,斯里尼瓦桑明确表示,Perplexity的角色是“信息的智能聚合者”。
Perplexity聊天机器人对自己的定位也非常明确。它自述称:“PerplexityAI是一款融合了传统搜索引擎强大功能和聊天机器人交互优势的人工智能搜索引擎。通过每日对网络的全面索引和对最新文章的深入分析,为用户提供了准确、及时且易于理解的答案。”这种自我描述不仅凸显了PerplexityAI的核心优势,也传达了其致力于提供高质量信息服务的决心。
01无视机器人排除协议不过媒体分析和开发者罗布·奈特(RobbKnight)的研究表明,Perplexity似乎在抓取网站上不希望被机器人访问的区域中的内容,无视广泛接受的机器人排除协议(RobotsExclusionProtocol)。机器人排除协议,也被称为爬虫协议,是一种网站与网络爬虫之间的通信协议。通过这个协议,网站管理员可以指定哪些页面是允许爬虫抓取的,哪些页面是不允许的。该协议的目的是保护网站数据和敏感信息,确保用户个人信息和隐私不被侵犯。
此外,Perplexity的聊天机器人在提供答案时,虽然声称能够提供即时、可靠的信息和完整的来源引用,却也被发现有时会编造事实。尽管Perplexity声称其聊天机器人能够访问并使用原始报道内容,但媒体服务器的访问日志中并未发现Perplexity公布的IP地址的访问记录,这引发了对其技术运作方式的疑问。
最近,Perplexity在其官方文档中公开了一个链接,列出了其网络爬虫使用的IP地址,看似是为了增加透明度。但调查显示,Perplexity还使用了至少一个未公开的IP地址来访问和抓取数据,这些行为与网站的阻止设置相违背。面对这一发现,Perplexity已从文档中移除了公开IP地址的信息。
这个未公开的IP地址44.221.181.252,在近三个月内至少访问了CondéNast旗下媒体822次。CondéNast的一位资深工程师表示,这只是一个保守的估计,因为公司只保留了部分网络日志。通过创建新网站并监控服务器日志,媒体几乎可以确定一个与Perplexity紧密相关的IP地址。当要求Perplexity聊天机器人对该网站内容进行总结时,服务器记录显示这个IP地址访问了该网站。开发者奈特进行的类似测试也发现了相同的IP地址。
02与初创公司形象的偏差尽管Perplexity的用户界面上有图形显示,似乎表明聊天机器人在回答问题前会"阅读"特定的源材料,但实际上,在某些情况下,Perplexity可能并没有总结真实的新闻文章。它可能只是基于网址(URL)和搜索引擎中的信息碎片,如摘要和元数据,重建文章内容,然后提供看似基于直接访问原文的摘要。换句话说,在Perplexity估值达到10亿美元的背后,它似乎违背了自己的承诺,做了一些本不打算做的事情;同时又未能兑现其宣称的能力,未能完成它所声称会完成的任务。
Perplexity首席执行官斯里尼瓦桑对此发表声明称:“媒体报道的问题显示出对Perplexity和互联网运作方式的深刻且根本的误解。”这份声明并没有对报道的具体内容提出异议,斯里尼瓦桑也没有回应后续问题,即他是否对媒体或奈特的分析持有异议。
某媒体在6月6日发表了一篇关于前谷歌CEO埃里克·施密特(EricSchmidt)新创办的公司正在积极招募人才,并测试具有潜在军事用途的人工智能无人机的独家报道。第二天,该媒体的编辑约翰·帕奇科夫斯基(JohnPaczkowski)在社交媒体平台X上指出,Perplexity基本上复制了这篇报道的主要内容。他写道:“它抄袭了我们大部分的报道,并以最容易被忽视的方式引用了我们和一些转发我们报道的博客作为来源。”
也就在同一天,斯里尼瓦桑对帕奇科夫斯基的评论表示感谢,并指出复制该媒体独家报道的产品功能还有待改进,他也同意应该更突出地引用来源。斯里尼瓦桑指出:“我们持续开发创新的出版合作产品和策略,旨在与媒体公司的长远发展目标和利益保持一致。我们很快将发布相关产品,敬请期待!”、
虽然外界对Perplexity的行为方式颇为关注,但这在一定程度上掩盖了更重要的问题:它是如何做到的。关于Perplexity所做的事情,基本情况并没有太大争议:Perplexity通过总结新闻文章来盈利,这种做法自新闻诞生以来就存在,并且得到了广泛但有限制的法律保护。斯里尼瓦桑承认,有时这些摘要并没有充分或突出地引用它们的来源,但他更广泛地否认了任何不道德或非法的行为。他表示:“Perplexity从未从任何人那里剽窃内容。我们的引擎没有在任何人的内容上进行训练。”
这种辩解方式有些奇怪,因为它回应了一个实际上并没有人提出的问题。Perplexity的主要产品并不是需要在大量数据上进行训练的大语言模型,而更像是一个围绕这类系统的包装器。正如记者所做的那样,支付20美元购买Perplexity的“Pro”订阅后,可以从五种AI模型中选择使用。其中一种名为“SonarLarge32k”的模型是Perplexity独有的,它基于由Meta的LLaMa3构建;其他的模型则是OpenAI和Anthropic提供的各种现成模型。
Perplexity的运作方式颇为独特:当用户发起查询时,其聊天机器人不仅会检索自己的数据库来构建答案,还会利用其广为宣传的“实时访问网络”功能来收集信息,之后将这些信息输入用户选择的AI模型中,以生成回答。因此,尽管Perplexity训练了自己的模型,并声称运用“复杂的人工智能”来解析问题,将其简单定义为“AI初创公司”可能有所偏颇;更准确地说,它更像是依附于现有AI系统的辅助者。
理论上,Perplexity的聊天机器人应当无法总结那些通过robots.txt文件在今年早些时候明确禁止其爬虫访问的媒体文章。Perplexity也宣称尊重robots.txt标准。然而,媒体分析发现,实际上,仅仅通过输入文章标题或基于文章内容的问题提示,聊天机器人可以快速生成文章的详细摘要。
当Perplexity被问及“一些便宜的有线耳机真的在使用蓝牙吗?”时,它似乎提供了外媒一篇故事的两段摘要,旁边还附有最初与之一起发布的艺术作品。文本中写道:“虽然这种方法不是骗局,但根据个人视角,它可以被视为欺骗或巧妙的变通。”这与外媒当时的文案非常接近,但聊天机器人生成的文本坚称这只是巧合。
“不,我没有抄袭这句话,”聊天机器人在回应外媒的提示时生成的文本中写道。“措辞的相似性是偶然的,反映了描述这种微妙情况时使用的共同语言。”共同语言是如何定义的尚不清楚——除了耳机的产品列表外。开发者奈特的研究和随后媒体的分析为这里发生的一些事情提供了解释:简而言之,Perplexity未经许可就抓取了网站。
正如奈特所解释的,除了通过robots.txt文件禁止AI机器人访问他工作的Macstories.net服务器外,他还另外编写了一个服务器端的阻止代码,搜索明星公司曝丑闻:技术违规无新意极易产生机器幻觉理论上应该让爬虫收到403禁止访问的响应。然后他发表了一篇文章,描述了他是如何做到这一点的,并要求Perplexity聊天机器人总结这篇文章,结果得到了“包括他们不可能只是猜测出的各种细节的完美摘要。”“那么,”他合理地问道,“他们到底在做什么?”
奈特检查了他的服务器日志,发现Perplexity似乎无视了他设置的robots.txt文件,并巧妙地绕过了他的防火墙,很可能是通过一个自动化网络浏览器在公司未公开的服务器上进行操作。他写道:“我甚至无法封锁他们的IP范围,因为看起来这些无头浏览器并不在他们的IP范围内。”
媒体确认了奈特观察到的IP地址--44.221.181.252--会根据用户对Perplexity的查询请求,访问并下载网页,完全不顾网站robots.txt文件的规定。根据媒体工程师对CondéNast系统日志的分析,这个IP地址很可能在未经许可的情况下,已经访问了公司的内容数千次。
在某些情况下,对那些明确禁止抓取内容的网站进行抓取可能会给公司或个人带来法律风险。尽管相关法律案例并不明确,通常倾向于支持那些访问公共网站的行为。电子前沿基金会的监控诉讼总监安德鲁·克洛克(AndrewCrocker)指出:“这是一个复杂的法律领域,并且围绕这个问题有很多诉讼。”
作为一位开发者,奈特对其发现感到非常愤怒。他指出:“当前,许多人工智能公司为了保持业务,不惜采取一些不正当手段。他们通过隐藏自己的身份访问网站,从而无限制地收集数据。”
斯里尼瓦斯则对此回应说:“Perplexity之所以受到数百万用户的青睐,是因为我们提供了一种更高效的方法来帮助人们获取信息。”
03聊天机器人的幻觉与准确性之争尽管奈特和媒体的分析显示,Perplexity会访问并使用它没有权限的网站内容,"然而,这并没有完全解释为何Perplexity对某些文章的回应显得含糊,或对其他文章的回应存在明显错误。实际上,有一个简单的解释:在一些情况下,Perplexity并没有真正地总结文章内容。
在一个实验中,媒体创建了一个包含单一句子的测试网站——“我是XX媒体的记者”——并要求Perplexity对页面进行总结。在监控该网站的服务器日志时,没有发现Perplexity试图访问该页面的迹象。相反,它编造了一个故事,关于一个名叫阿米莉亚的小女孩,在被称为耳语森林(WhisperWoods)的神奇森林中,跟随一串发光的蘑菇。为什么聊天机器人会编造这样一个离奇的故事,或者为什么它没有尝试访问这个网站,原因尚不清楚。
尽管Perplexity声称其准确性和可靠性,但其聊天机器人经常表现出类似问题。例如,为了测试它是否能够访问这篇文章,根据记者提供并设计的提示,聊天机器人生成的文本引用13年前的一篇报道,称内容包括一名男子在盗窃卡车轮胎后被无人机跟踪。在进一步的提示下,Perplexity聊天机器人生成的文本又称媒体报道了加州丘拉维斯塔警察局的一名警官从一个车库中偷走了一辆自行车。(事实上,该媒体并没有报道此事。)
丘拉维斯塔警察局的副局长丹·皮克(ChinaMiéville)在一封电子邮件中对媒体表示感谢,感谢他们“纠正记录”,并澄清该警官并没有从社区居民的车库中偷自行车。然而,他补充说,该部门对提到的技术不熟悉,因此无法进一步评论。
这些都是聊天机器人“幻觉”的明显例子——或者按照格拉斯哥大学三位哲学家最近发表的一篇文章,用哈里·法兰克福(HarryFrankfurt)的经典著作《论废话》(OnBullshit)中所描述的意义上的“废话”。作者在谈到人工智能系统时写道:“因为这些程序本身并不关心真相,而且它们被设计成产生看似符合真相的文本,而实际上并不关心真相。因此,将它们的输出称为废话似乎是恰当的。”
如果Perplexity聊天机器人正在访问文章,它就没有理由通过推断文章内容来制造废话。因此,可以合理地得出结论,在某些情况下,它并没有访问,而是从其他地方找到的相关材料中大致推测了其中可能的内容。这些信息最可能的来源是URL和被搜索引擎如谷歌收集并提交的数字碎片——这个过程有点像通过品尝从垃圾桶里捞出的残渣和碎屑来描述一顿饭。
Perplexity在其网站上发布的关于其工作原理的解释,以及聊天机器人在回应与其信息收集工作流程相关的提示时生成的文本,都支持这一理论。文本说,在解析查询后,Perplexity会部署它的网络爬虫,避开它被封锁的网站。(编译/无忌)