《纽约时报》(The New York Times)近日报导,OpenAI 使用了在 AI 领域的竞争对手 Google 的 YouTube 影片来训练自家 AI 模型,而且 OpenAI 高层知情,还亲自参与。
报导指出,由於 OpenAI 急需训练数据,因此开发了声音转录模型 Whisper 并且转录了 100 万个小时的 YouTube 影片来克服苦无训练数据的问题,报导还指出,OpenAI 总裁 Greg Brockman 还亲自参与收集影片。
报导表示,该公司在 2021 年耗尽了所有有用数据的供应源,包括 Github 程式码、国际象棋资料库、Quizlet 作业内容等,并且开始考虑转录 YouTube 影片、podcast 节目以及有声书。
报导引述知情人士的说法指出,OpenAI 员工知道他们正在走进法律的灰色地带,「但相信用影片训练 AI 是合理使用」。Brockman 则在一份研究论文中被列为是 Whisper 的创造者。
OpenAI 发言人 Lindsay Held 对此表示,该公司为每个模型精心策划了独特的资料集,以帮助模型了解世界并保持全球研究竞争力。Held 也补充道,该公司此用众多数据,包括公开数据以及透过合作夥伴收集非公开数据,也正考虑生成自己的合成数据。
数据的「规模」是胜负关键
这些数据为何如此重要?根据 2020 年约翰·霍普金斯大学 (Johns Hopkins University)理论物理学家 Jared Kaplan 发表的论文指出,训练大型语言模型(LLM)所需的资料「越多越好」,只要数据够多,它的效能就会越好,Kaplan 博士也是 AI 新创公司 Anthropic 的首席科学家。
很快的,”Scale is all you need.” 成为了 AI 战场的新口号。
Google 发言人 Matt Bryant 指出,该公司已经看到了《纽约时报》关於 OpenAI 活动的内容,并且补充该公司的 robots.txt 文件和服务条款都禁止未经授权的抓取或下载 YouTube 内容,这也与该公司的条款相呼应。
YouTube 执行长 Neal Mohan 在本周稍早也对此类事件做出回应,表示当该公司有明确的法律或技术依据时,将采取技术和法律措施来防止此类未经授权的使用行为。
OpenAI、Google、Meta 都面临相同问题:数据不够了
不过《纽约时报》也指出,Google 自己也从 YouTube 搜集了文字资料。Bryant 则对此表示,的确根据了与 YouTube 创作者的协议,透过 YouTube 上的内容来训练自家模型。报导指出,这可能侵犯了影片的版权,因为这些影片属於创作者。
报导指出,事实上 Google 曾要求隐私部门成员扩大其服务条款,允许 Google 利用公开的 Google 文件、Google Maps 上的餐厅评论和其他线上公开材料来训练其 AI 产品,员工表示,该团队被特别告知要在 7 月 4 日发布这项条款更新,因为正好可以用连续假期来转移媒体与大众的注意力。
- Google 更新隐私政策,明确指出:将蒐集公开资讯训练 AI!
另一家 AI 巨头 Meta 也在去年初遇到了和竞争对手相同的问题:没有足够的数据。根据内部会议纪录,该公司的生成式 AI 副总裁 Ahmad Al-Dahle 曾表示,他的团队几乎使用了网路上所有可用的英文书籍、论文、诗歌、新闻文章来开发模型,「除非获得更多数据,否则 Meta 无法追赶上 OpenAI」。
录音显示,该公司还讨论过是否要支付费用来获得书籍的许可权,甚至是直接收购出版社。录音中一名律师提出了从艺术家、创作者手中夺取智慧财产权的道德问题,会议随即陷入沈默。
尽管 Meta 握有 Facebook、Instagram、Threads 等平台,不过在 2018 年的剑桥分析丑闻後,该公司在隐私一事上做出了变革,并且在使用消费者资料的方式上受到了明显的限制。报导指出,Meta 执行长祖克伯要求团队必须找到解方。
Meta 的高层表示,OpenAI 似乎未经许可使用了受版权保护的资料。根据录音,他们表示,Meta 需要很长时间才能与出版商、艺术家、音乐家和新闻业谈判相关的许可权。
Meta 高层也提出了 2015 年作家协会控告 Google Books 的判决结果做为参考,指出 Meta 或许可以遵循 OpenAI 这一「先例」:也就是使用未经许可的版权数据。
不过,至少有两名员工对这样的行为表达担忧。一名员工指出,在另一场类似的会议上,甚至没有员工提出对於使用版权作品可能引发的道德问题的担忧。
合成数据是解答吗?
人工智慧生成的文本(也就是合成数据)被认为是数据不足的解答之一,OpenAI CEO Sam Altman 曾表示,像 OpenAI 这样的公司最後将利用这些合成数据来训练 AI,除了能开发出更好版本的 AI 之外,还能减少对於版权资料的依赖。
不过,合成数据是否真的可用,一直都还处於争论阶段。这样的数据很有可能不断强化自身的偏见、错误,也无法突破自身限制,因此科技公司仍在探索一些新的方法。
根据研究公司 Epoch 的预测,科技巨头们将在 2026 年迎来一个转捩点,即他们使用网路上高品质数据的速度,将快於这些数据产生的速度,若没有新的数据来源或者更新的数据使用政策,AI 的训练和发展速度无疑将面临挑战。
核稿编辑:Chris
快加入 INSIDE Google News 按下追踪,给你最新、最 IN 的科技新闻!