数据之战大模型的燃料还能烧多久?
-
数据之战:大模型的燃料还能烧多久?
真实数据即将耗完,合成数据训练成替代品?作者/IT时报记者贾天荣编辑/王昕AI时代,高质量、规模庞大且安全可靠的语料库已成为构建强大AI模型的基石。近日有外媒报道,OpenAI使用所有公开可用的数据来训练ChatGPT,包括来自互联网的书籍和文章。事实上,在大模型发展如火如荼的当下,任何大模型公司对于高质量语料的需求都不会停止。谷歌、Meta、OpenAI、Anthropic和微软等领先的科技公司都在争相寻找新的数据来源。Meta甚至一度考虑收购世界上最大的出版社之一西蒙与舒斯特公司。但作为人工智能大模型的“燃料”...