用于训练AI的数据面临枯竭

来源:《第一财经》YiMagazine
关键字:训练,数据,枯竭
发布时间:2024-09-25 16:17

　　翻译／万志文

　　多年来，构建强大人工智能系统的人一直在使用从互联网上提取的海量文本、图像和视频来训练他们的模型。

　　现在，这些数据正在面临枯竭危机。

　　麻省理工学院领导的研究组织Data Provenance Initiative最近发表的一份研究报告显示，过去一年里，被用于训练人工智能模型的主要网络数据来源有许多都限制第三方使用它们的数据。

　　在调查了3个常用的人工智能训练数据集所包含的1.4万个网站域名以后，该研究发现了一个“正在出现的数据使用许可危机”：生产原创内容的媒体机构和线上平台已纷纷采取措施防止自己的数据被采集。

　　有25%的最高质量来源的数据已经受到了使用限制。这些限制是通过“网络爬虫禁用协议”（Robots Exclusion Protocol）设置的，这是一种已有几十年历史的方法，网站所有者可以通过一个名为robots.txt的文件来防止自动机器人抓取他们的网页内容。

　　该研究的主要作者谢恩·朗普雷（Shayne Longpre）在接受采访时说，“我们注意到，整个互联网上允许外界使用自家数据的网站正在迅速减少，这不仅会对人工智能公司产生影响，也会对研究人员、学者和非商业实体产生影响。”

　　数据是当今生成式人工智能系统的主要组成部分，这些系统需要输入数十亿个文本、图像和视频示例。这些数据大多是研究人员从公共网站上抓取的，它们被汇编成大型数据集，供下载和自由使用，其他来源的数据作为补充。

　　多年来，AI开发人员一直能够相当容易地收集数据。OpenAI、Google和Meta等公司为了收集更多数据来改进旗下人工智能系统费尽心机，采取了转录YouTube视频、刻意修改各自的数据政策等措施。

　　从这些数据中学习，OpenAI的ChatGPT、Google的Gemini和Anthropic的Claude等生成式人工智能工具才能够给大家写文章、编程以及生成图像和视频。输入到这些模型的高质量数据越多，它们的输出结果通常就越好。

　　然而过去几年，生成式人工智能蓬勃发展，引发了数据所有者的不满，抵制情绪在加剧—许多数据所有者要么担心自家数据沦为人工智能系统的训练素材，要么至少希望获得报酬。一些媒体网站设置了付费墙或修改了服务条款，以限制第三方收集它们的数据来训练人工智能系统。

　　Reddit和Stack Overflow等网站选择向人工智能公司收取数据访问费用；《纽约时报》等传媒公司则采取了法律行动，去年它起诉OpenAI和微软侵犯版权，指控这两家公司在未经许可的情况下使用其新闻报道来训练人工智能模型。

　　最近，一些人工智能公司与美联社和《华尔街日报》母公司新闻集团（News Corp.）等出版商达成了协议，从而获得这些出版商所拥有的内容的访问权。

　　大范围的数据限制会对人工智能公司构成威胁，因为它们需要稳定的高质量数据供应，来维持旗下人工智能模型的数据的时效性。同时这可能会给小型人工智能机构和学术研究人员带来麻烦，因为他们依赖公共数据集，且无力直接从出版商那里购买数据使用权。

　　非营利性人工智能研究机构EleutherAI的执行董事斯特拉·比德曼（Stella Biderman）也表达了同样的担忧。

　　“大型技术公司已经掌握了所有的数据，”她说，“更改数据使用许可并不会追溯性地撤销使用许可，受到主要影响的是后来者，他们通常是些体量较小的初创公司或研究人员。”

　　目前尚不清楚哪些流行的人工智能产品使用这些数据来源训练过产品，因为很少有开发者完全披露所使用的数据来源。

　　人工智能公司声称，它们对公共网络数据的使用受到合理使用原则的法律保护，但收集新数据变得更加棘手了。一些公司认为，它们可以使用合成数据（即人工智能系统本身生成的数据）来训练模型，由此扩大数据库的规模。但许多研究人员怀疑，当下的人工智能系统是否有能力生成足够的高质量合成数据，来替代它们即将接触不到的由人类生成的数据。

　　另一个挑战在于，原创内容出版商们可以通过在robots.txt文件中设置限制条件来阻止人工智能公司抓取自己的数据，但它们的要求并不具有法律约束力，遵守这些要求与否取决于个人意愿（可以把它想象成数据领域的“禁止入侵”标志，但没有法律效力）。

　　主流搜索引擎对这些选择退出的出版商表示尊重，OpenAI、Anthropic等数家处于领先的人工智能公司也公开表达了同样的态度。包括人工智能搜索引擎Perplexity在内的其他公司则被指责无视了那些要求。

　　朗普雷说，这项研究的其中一个重要启示是，我们需要新的工具为网站所有者提供更精确的方法来控制数据的使用。他说，一些网站可能会反对人工智能巨头使用它们的数据来训练聊天机器人并以此牟利，但可能愿意让非营利组织或教育机构使用它们的数据。目前还没有很好的方法能区分这些用途，或者阻止一种用途，同时允许另一种用途。

　　不过，这也给大型人工智能公司上了一课。多年来，这些公司一直将互联网视为“任意享用”的数据自助餐，却没有给数据所有者带来多少价值回报。它们利用了互联网，最终，互联网要开始关闭它的大门了。

……

关注读览天下微信， 100万篇深度好文，等你来看……

立即购买本期杂志

查看本期更多内容