数据之战:大模型的燃料还能烧多久?

真实数据即将耗完,合成数据训练成替代品?

作者/IT时报记者贾天荣

编辑/王昕

AI时代,高质量、规模庞大且安全可靠的语料库已成为构建强大AI模型的基石。

近日有外媒报道,OpenAI使用所有公开可用的数据来训练ChatGPT,包括来自互联网的书籍和文章。事实上,在大模型发展如火如荼的当下,任何大模型公司对于高质量语料的需求都不会停止。谷歌、Meta、OpenAI、Anthropic和微软等领先的科技公司都在争相寻找新的数据来源。Meta甚至一度考虑收购世界上最大的出版社之一西蒙与舒斯特公司。

但作为人工智能大模型的“燃料”,高质量语料正在面临“枯竭”。

加州大学伯克利分校计算机科学教授斯图尔特・罗素就曾发出警告,ChatGPT等人工智能驱动的机器人可能很快就会“耗尽宇宙中的文本”。随着越来越多出版商指责大模型公司窃取受版权保护的数据,一场知识产权的纷争也即将打响,获取数据正变得越来越难。

在2024年世界人工智能大会(WAIC2024)上,如何有效供给高质语料数据,以支持大规模AI模型的产业应用,成为业界内外专家热烈讨论的核心议题之一。面对数据稀缺与模型旺盛需求之间的矛盾,学界与业界正在探索可持续的解决方案,以确保AI健康发展的同时,兼顾创新与知识产权的平衡。

“做大模型应该像造火箭”

“如果我们所有数据都放在一个表格里,那么做数据分析的门槛和成本都会比较低。”在中国科学院院士鄂维南看来,如何将大量的非结构化数据转化为结构化形式,以降低数据分析门槛与成本,成为亟待解决的问题。

非结构化数据,是如文本、图片、语音及视频等数据,因其复杂性和多样性,给大模型的数据分析带来巨大挑战。

鄂维南以全球第一个AI数据库——MyScale数据库为例,该数据库刚刚获得了2024WAIC的硬核大奖SAIL奖,能在同一系统中支持海量结构化、向量、文本、时序、图片等各类异构数据的高效存储和联合查询。他认为,这是目前国际上综合性能最好、功能最强的AI数据库。

鄂维南强调,AI的发展需以“大模型 大数据库”双轮驱动。这意味着所有数据资源应集中于一个数据库内,通过大模型的处理,实现数据价值的最大化。同时,利用专用知识库和高质量数据,低成本地批量生产智能体或小型模型。这一策略不仅适用于特定行业,还能服务于整个科研行业,涵盖化学、材料、生物等多个领域。

针对当前数据处理工具的缺失,院士团队正致力于打造一系列工具,以弥补在数据清洗、整理及训练大模型方面的空白。此外,鄂维南院士还提出了一种创新的“忆立方模型”,旨在通过知识分层处理,数据之战:大模型的燃料还能烧多久?减少模型规模,降低训练成本。该模型已在上海临港新片区的试点项目中得到验证,其将模型规模降低10倍,在降低模型规模与成本方面具有潜力。

“我们在数据库方面是有优势的,在高性能计算方面还有很大空间没有挖掘,就像当年造火箭一样,每一样都搞不过别人,但是我们希望整个系统不比别人差。”鄂维南院士呼吁,中国应从底层逻辑出发,深入探索AI的基本原理,并从系统角度布局AI发展,涵盖算力、数据、模型与高性能计算等多个方面。他强调,单纯堆砌大模型并非长久之计,需从整体系统优化入手。

华为上海代表处战略官房思哲也表示,华为在训练其盘古大模型时,也面临着和所有大模型玩家一样的问题:“数据的规模要大,质量要高,种类也要多元化,同时需要这些数据能够以一定的配比形成体系化。”房思哲特别提到了专业知识类和行业知识类数据的获取难度,尤其是在外文数据方面。

事实上,各方对于数据获取的探索从未停止。7月6日,“语料筑基智生时代”2024WAIC语料主题论坛上,上海市级语料公司库帕思携手大模型语料生态伙伴,集中发布了一批大模型语料成果,包括语料运营平台1.0上线、首批十大高质量语料产品发布等。其中,“语料运营平台1.0”实现了面向语料数据“采、洗、标、测、用”五位一体的工具链能力。

为进一步激发市场主体语料创新活力,增强供给侧能级,加速医疗健康、城市交通、消费零售、金融、影音等重点行业的大模型产业发展,库帕思携手咪咕视频、宝信软件、复旦大学智能医学研究院、上海工创中心、汇纳科技、万达信息、DGC数传集团、文远知行、文因互联、上海电科智能、海天瑞生集中发布了十大语料数据产品。此外,本次论坛中还发布了金融、生命健康、教育三项行业语料术白皮书。

数据标注用“魔法”提纯“魔法”

高质量数据的获取,离不开大量的标注工作,一段时间内,数据标注员的需求也随着AI技术的发展而大幅增加。

“AI已经进入了2.0时代。”北京星尘纪元智能科技有限公司总裁章磊回顾了2019年与国家融媒体实验室的合作,当时双方致力于语料的深度清洗、详尽标注与规则制定,三年时间里,这项工作消耗了大量的人力资源,每一句话、每一个实体、每一条问答规则都经过了细致入微的标注。

然而大模型出现之后,这一切开始发生变化。大模型的出现,意味着AI系统本身已具备了相当程度的智能,能够处理复杂的自然语言处理(NLP)任务,无需人工再深入到每一个细节之中:“对我们来说,这看似让工作变得简单,但也带来了全新的挑战。”

大模型的训练和优化,对数据的维度和认知深度提出了更高要求。与此同时,尽管需要人工介入的人员更精简,但对人员的要求却发生了质的飞跃。现在需要的是更高层次的人才,通常具备硕士研究生以上的学术背景,才能承担起大模型语料的深入体系设计工作。

在标贝(青岛)科技有限公司联合创始人兼首席技术官李秀林看来,大模型的出现不仅改变了数据需求的本质,还催生了新的供需动态和合作模式,同时也重新定义了模型在数据生产过程中的角色。

首先,从需求侧来看,大模型对数据规模和类型提出了全新要求。传统的数据需求主要集中在特定场景的精细标注,而现在,无监督学习所需的海量语料成为关键。这不仅增加了数据筛选和清洗的复杂度,还要求更深层次的数据加工技术,以确保数据质量满足大模型训练的高标准。

其次,各行业领域的专业语料在大模型的应用中扮演着至关重要的角色。处理这些领域的语料需要深厚的行业知识和专业技能,远非简单的数据标注所能比拟。这要求数据处理团队不仅要具备技术实力,还要深入了解特定领域的专业知识,才能有效挖掘和利用领域语料的价值。

随着大模型的普及,数据的供应方也在悄然变化。传统的数据公司不再是唯一的来源,许多拥有行业数据的团队或组织开始直接参与到数据供给中来。然而,如何将这些语料有效整合进大模型,成为一道亟待解决的难题。

大模型在数据生产过程中的作用发生了根本性变化。它不再仅仅是被动的数据消费者,而是成为数据生产的参与者和优化者。

由此,自动化标注的发展与应用也成为AI领域的一大热点,其目的是减少人工参与、提高数据处理效率和降低成本。章磊表示,在自动化标注的初期,预标注阶段是主流。借助已有模型的预测能力,数据被初步标记,随后交由人工审核修正,以确保标注的准确性。

然而,随着技术的演进,自动化标注不再局限于简单的模型预测。星尘纪元等企业投入大量资源,自主研发了50余种适用于各类场景的自动化标注工具和算法,实现了任务细分与专项处理,显著提升了标注效率与质量。另一方面,通过分析视频序列中的时序关系,前后帧数据互相监督,实现自我校正,显著提高了动态场景下的标注精度。

章磊表示,理想状态下,自动化标注有望覆盖90%以上的数据处理需求,甚至逼近99%的自动化水平。但在面对复杂或异常数据时,实际的提效比例只有30~50%,章磊认为,AI大模型和多模态技术的驱动下,自动化标注的准确性和覆盖率将持续提升,自动化与人工相结合的模式将成为常态。

李秀林指出,数据标注实际上是一个非常好的人机协同场景,两者相辅相成的过程。随着技术的发展,越来越多的标注工作从完全依赖人工转变为机器辅助或主导,人工的角色更多地转向了质量控制和复杂问题的解决。

在业务实践中,标贝科技经常面临新的、更复杂的标注需求,这些需求往往超出了现有模型的能力范围。面对这种情况,公司在初始阶段可能需要纯人工介入,随后工程师根据任务需求开发和迭代模型,逐步提高自动化标注的比例。这一过程体现了从“纯人工”到“人工为主导”,再到“机器为主导”,最终可能达到人工仅负责质检,甚至完全无需人工干预的演变。

合成数据完全取代真实数据?

科技巨头们已经在多个场景探索合成数据的应用,如英伟达的元宇宙平台Omniverse拥有合成数据能力omniversereplicator;亚马逊使用合成数据来训练、调试其虚拟助手Alexa,以避免用户隐私问题;微软的Azure云服务推出了airSIM平台,创建高保真的3D虚拟环境来训练、测试AI驱动的自主飞行器……

目前,GPT宣称已经用完了人类互联网的数据,英伟达的Nemotron-4也宣称用了98%的合成数据,而人工标注数据仅有2%。未来,合成数据是否会完全取代真实数据?

多位专家都认为,合成数据和真实数据各有优势和局限性,它们在AI模型训练中的角色和重要性将根据具体的应用场景和需求而变化。在未来,合成数据和真实数据很可能会并存,形成互补,共同推动AI技术的发展。

“合成数据对于大模型训练的重要性是毋庸置疑的。”房思哲透露,华为已经在大模型训练和自动驾驶等领域中使用了合成数据,在对真实世界细节要求不高的情况下,合成数据可以有效补充或替代真实数据,“但在一些对真实性要求更高的场景下,我们觉得合成数据可能使用起来是要谨慎的。”

房思哲表示,行业数据往往需要在真实世界中生成,这涉及人类活动、经验和观察,而这些是合成数据难以完全捕捉的,因此,即使基础大模型可以从合成数据中获益,行业大模型仍然需要大量高质量的真实数据来训练,以确保其在特定应用场景下的准确性和可靠性。

中云开源数据技术(上海)有限公司创始人、CEO陈刚则认为,就工业领域而言,合成数据不会成为主流。他的理由主要基于两个方面,首先,工业数据并非缺乏,而是受限于版权、产权等因素,导致现有数据未能得到充分利用;其次,合成数据在特定场景下(如核电站故障预测)具有应用价值,但在大多数情况下,特别是对于大模型而言,合成数据的迭代可能导致信息失真,使其在工业应用中难以达到实际效果。

免责声明:本网站部分内容由用户自行上传,若侵犯了您的权益,请联系我们处理,谢谢!联系QQ:无敌椰子

分享:

扫一扫在手机阅读、分享本文