谷歌推出,解决幻觉问题并提升模型数据可靠性
近日,谷歌推出了一项名为DataGemma的创新技术,旨在解决大型语言模型在处理统计数据时容易产生“幻觉”的问题。
这一技术的出现,是AI领域在提高模型准确性和可靠性方面的新尝试。
大模型作为近年来AI领域的重大突破之一,已经在代码生成、内容生成等多个领域得到广泛应用,为个人和企业节省了宝贵的时间和资源。
然而,即便取得了显著的进展,这些模型在处理涉及数值、统计数据或其他事实相关的问题时,仍然存在产生“幻觉”的倾向。所谓“幻觉”,是指模型有时会呈现不准确的信息。
谷歌的研究人员指出:“(我们)已经识别出造成这些现象的几个原因,包括大模型生成的本质上具有概率性,以及训练数据中缺乏足够的事实覆盖等。”
即便是传统的事实验证方法,在处理涉及逻辑、算术或比较操作的统计查询时,效果也往往不佳。这是因为统计数据分布在各种不同的模式和格式中,需要相当多的背景(上下文)知识才能正确解释。
为了解决这些问题,谷歌研究人员用到了DataCommons平台。该平台是公开可用的知识图谱,共包括2400亿多个可信组织丰富数据点,它们来自联合国、世界卫生组织、疾病控制与预防中心和人口普查局等。
他们通过两种不同的方法将其与Gemma系列语言模型结合,从而开发出了新的DataGemma模型。
该模型采用两种独特的方法,来提高其在处理统计数据时的准确性:检索交错生成(RIG,RetrievalInterleavingGeneration)方法和检索增强生成(RAG,RetrievalAugmentedGeneration)方法。
其中,RIG方法通过比较模型的原始生成结果与存储在DataCommons中的相关统计数据,来提高事实准确性。
具体来说,经过微调的大模型会生成描述性的自然语言查询。
然后,一个多模型后处理管道将这个查询转换为结构化数据查询,执行后就能从DataCommons中检索相关的统计答案,从而支持或纠正大模型的生成结果,并提供相关引用(证据)。
另一种RAG方法是许多公司已经在使用的技术,谷歌推出,解决幻觉问题并提升模型数据可靠性用于帮助模型整合训练数据之外的相关信息。
在DataGemma中,经过微调的Gemma模型使用原始统计问题来提取相关变量,并为DataCommons数据库生成自然语言查询。执行这个查询指令,就会得到相关的统计数据或表格。
一旦提取了这些值,它们就会与原始用户查询一起被当做提示的一部分,输入到一个长上下文大模型(在这种情况下是Gemini1.5Pro)中,进而生成具有高度准确性的最终答案。
在对101个人工生成的查询进行测试时,使用RIG方法微调的DataGemma将基线模型17%的事实准确率提高到了约58%。虽然使用RAG方法的结果略显逊色,但仍然比基线模型有所改进。
DataGemma模型能够回答24-29%的查询,提供来自DataCommons的统计响应。对于这些响应中的大多数,大模型在数字方面的回应通常是准确的(99%)。
然而,在正确推断这些数字的含义时,它仍然有6%到20%的失误率。
尽管如此,RIG和RAG都能有效地提高模型在处理统计查询时的准确性,特别是与研究和决策相关的查询。
它们各有优缺点,RIG速度更快但细节较少(因为它检索单个统计数据并验证),而RAG提供更全面的数据,但受到数据可用性和处理大量上下文能力的限制。
通过公开发布DataGemma及其RIG和RAG方法,谷歌希望推动这两种方法的进一步研究,并为构建更强大、更有根据的模型开辟道路。
该公司对媒体表示:“我们的研究正在进行中,我们致力于在扩大这项工作规模、对其进行严格测试,并最终将这种增强功能整合到Gemma和Gemini模型中时进一步完善这些方法,最初将通过分阶段的限制访问方式推出。”
通过将这一最新的Gemma模型变体再次作为开放模型共享,谷歌希望促进这些技术的广泛采用,并在事实数据基础上对大模型进行验证,更好地应对大模型的“幻觉”问题。
总体来说,提高大模型的可靠性和可信度是确保它们成为每个人不可或缺工具的关键,也为AI能够提供准确信息、促进明智决策和加深对周围世界的理解建立基础。
参考资料:
https://blog.google/technology/ai/google-datagemma-ai-llm/
https://venturebeat.com/ai/datagemma-googles-open-ai-models-mitigate-hallucination-on-statistical-queries/
运营/排版:何晨龙