来源:中国经营报
本报记者 秦枭 北京报道
在人工智能飞速发展的当下,随着模型规模的不断扩大,一个严峻的问题正逐渐浮现——可用数据面临枯竭。数据,作为AI大模型的“血液”,其质量与数量直接决定了模型性能的上限。研究机构Epoch AI近日公布的研究预测,到2028年,用于训练AI模型的典型数据集的规模将达到公共在线文本总量的估计规模。这意味着,未来几年内,AI大模型可能会耗尽可用于训练的高质量数据资源。《自然》杂志最近也在头版敲响警钟——AI革命正“吸干”互联网数据的海洋。
《中国经营报》记者在采访中了解到,虽然算力的提升使得大模型能够处理,但高质量、贴合特定场景的数据供应可能没有同步跟上。这并不意味着数据完全枯竭,而是符合需求的优质数据难以获取。同时,还会出现边际效益递减,即随着模型规模扩大,增加额外数据所带来的收益逐渐变小。如果想进一步提升模型能力,所需的数据可能需要更高质量、更有针对性,导致对数据的需求更为苛刻。
互联网数据见底?
AI大模型对数据的需求量是巨大的。以GPT-4为例,其参数量达到了万亿级别,需要海量的数据来进行训练。
一位智算中心的工作人员告诉记者:“大模型的数据来源主要有几种,第一种互联网公开数据是常见的数据来源,涵盖网页、社交媒体、论坛、学术论文和开源数据集等,可通过爬虫或API获取。第二种是企业内部数据,包括用户行为、交易和产品日志等,对特定行业的大模型更有价值。第三种是第三方数据提供商则提供专业整理的行业数据。”
然而,互联网上可用的高质量数据资源却十分有限。虽然互联网上每天都在产生大量的数据,但这些数据的生成速度远远无法满足AI大模型的需求。
OpenAI原科学家苏茨克维尔曾表示,“我们只有一个互联网”,数据的增长正在放缓,而这一推动AI飞跃的“化石燃料”正逐渐枯竭。
上述工作人员坦言:“互联网数据面临枯竭的说法并不准确,准确地说是目前高质量的数据已经见顶。社交媒体上的虚假信息、冗余内容,以及网络上的偏见言论以及AI自己生成的数据等,都严重影响了数据的质量。这些低质量的数据不仅无法为模型提供有效的训练素材,还可能对模型的判断产生误导,导致模型性能的下降。低质量数据对大模型来说不是养料,而是毒药。”
他举例道:“之前(有报道称)Gemini说自己就是文心一言,听起来挺搞笑的,但背后就是互联网上的资料可能被AI严重污染了。”
八友科技创始人、CEO梁斌表示:“在2023年的市场上,所有大模型的客户,包括各类企业,都在拼命购买数据,但他们并不完全了解那些数据是好或是坏。到了2024年,客户只购买那些有着严格标准的数据,例如购买图片时,他们会指定图片中景物的大小和所需包含的内容。因此,客户现在已经能够识别出什么是好的数据,也就是说高质量数据的重要性正在日益增加。”
“而对于数据来源的后两者来说,获取的难度是极大的。”上述工作人员表示,“现在AI大模型用得越来越多了,数据所有者也开始管得越来越严,对内容的使用规则更加严格了。”
工信部信息通信经济专家委员会委员、DCCI互联网研究院院长刘兴亮向记者分析道,隐私与安全法规是限制数据获取的主要原因之一,全球范围内对数据隐私和安全的关注度持续提升,如《欧盟通用数据保护条例(GDPR)》和《数据安全法》等法律法规限制了数据的采集、存储和使用。用户对隐私保护的需求增加,许多企业和平台不愿意或无法提供大规模用户数据。
除上述原因之外,高质量数据获取的成本之高,使得企业难负其重。目前大模型厂商正在投入巨资清洗数据,但代价高昂。
“原始数据中存在大量噪声,进行清洗和标注的成本极高,尤其是在一些高精度需求的领域(如医疗、法律)。”刘兴亮表示,“与此同时,数据获取还面临数据版权问题,许多高价值数据(如文学作品、科研论文等)受版权保护,导致数据获取和使用受到法律约束。”
业内普遍认为,久久未能发布的GPT-5正是因为数据瓶颈显现,导致训练之路困难重重。
不过,OpenAI、谷歌等几家头部公司也坚称,AI并没有遇到所谓的“壁垒”和“瓶颈”。他们依然对AI的前景感到乐观,并认为通过开发新型数据源、增加模型推理能力以及应用合成数据,AI模型将继续保持进步。
突破数据瓶颈
数据枯竭问题的渐显,为AI大模型的发展敲响了警钟。企业也开始正视这一问题,积极寻找解决之道。通过挖掘现有数据的潜力、利用合成数据、建立数据共享平台、加强数据治理以及探索新的数据来源等多方面的努力。比如,OpenAI成立了一个基础团队,该团队主要探索如何应对训练数据的匮乏,调整规模法则的应用,保持模型改进的稳定性。
“现在大模型频繁地降价,一方面是成本因素,另一方面也是为了获得更多的数据。”上述智算中心的工作人员直言,“通过低价甚至免费吸引用户使用模型,从而获得更多的数据来优化模型效果,使用更多的数据能带来更出色的模型效果,进而吸引更多用户,形成良性循环。”
在大部分业内人士看来,在数据资源有限的情况下,如何促进不同机构、不同行业之间的数据共享与合作,是解决数据荒的有效途径。通过数据共享平台,企业、研究机构等可以将自己的数据资源进行整合和共享,实现数据的互联互通。
知名经济学者、工信部信息通信经济专家委员会委员盘和林认为:“最直接的办法,AI企业和互联网平台企业合作,共同打造AI大模型。互联网平台的算力、资金、数据都很充足。”
中国科学院院士梅宏在接受记者采访时表示:“举个例子,现在的公交车、出租车、地铁等各种出行方式的数据,均是由各自独立的信息系统来汇聚的,形成了一系列的数据孤岛。如果要把这些数据汇在一起共享融合,需要实现各系统间的互操作。如果每个机构都做一遍,成本很高,效率也很低。因此,需要构建一套以数据为中心的新型基础设施,从根本上支撑数据在互联网上的互联互通,这就是所谓的数据基础设施,它本质上是互联网技术体系的一次拓展和延伸。”
“鼓励建立行业间或科研领域的开放数据平台,同时制定合理的数据共享与使用规范,确保合规性。”刘兴亮表示,“‘数据荒’更像是数据获取和使用效率的问题,而非绝对的数据匮乏。隐私与安全法规确实对数据的自由流通提出了更高要求,但也推动了技术手段和商业模式的创新。未来,人工智能行业需要在数据获取效率、技术突破和法规遵循之间找到平衡点。”
发表评论