英伟达再次被发现从YouTube及奈飞上抓取数据用来训练人工智能模型-那点事

此前英伟达就被发现使用第三方数据集训练人工智能模型，但该数据集并未获得版权人的同意，也就是英伟达等公司在未经授权的情况下使用数据内容进行训练。

今天一份新报告显示英伟达每天都在获取各种数据用于模型训练，前英伟达员工透露称，公司要求他们从奈飞、YouTube 或其他在线资源中抓取视频内容，用于英伟达各种 AI 产品的训练数据。

这些产品包括英伟达的 Omniverse 3D 世界生成器、自动驾驶系统和数字人等产品，还包括名为 Cosmos 的项目，该项目旨在构建一个类似 Gemini 1.5、GPT-4 或 Llama 3.1 的基础人工智能模型。

英伟达再次被发现从YouTube及奈飞上抓取数据用来训练人工智能模型

值得注意的是当员工询问该项目的合法性时，英伟达管理层向他们保证，他们已经获得公司最高管理层的批准使用这些数据进行人工智能模型的训练。

同时英伟达内部的 Slack 聊天记录、电子邮件和部分文件也被泄露，这些文件作为证据证实英伟达确实在不停地、未经授权的抓取数据用于模型训练。

为了能够实现各种在线视频资源的抓取，Cosmos 项目据称使用了某个开源的视频下载器，并利用机器学习进行 IP 跳跃从而避开 YouTube 的封锁。证据显示项目经理讨论了使用 30 台运行在亚马逊 AWS 上的虚拟机用来抓取数据。

对于媒体报道英伟达也进行了回应，英伟达称自己没有做错任何事：

我们尊重所有内容创作者的权利并相信我们的模型和研究工作完全符合版权法的条文和精神。版权法保护特定的表达方式，但不保护事实、想法、数据或信息，任何人都可以自由地从其他来源了解事实、想法、数据或信息，并使用这些数据来表达自己的观点。合理使用还保护将作品用于变个性目的的能力，例如模型训练。

目前包括但不限于英伟达在内的科技公司都在想方设法从互联网上抓取数据用于模型训练，在这个过程中必然牵涉到未经授权的版权内容，但只要不被发现那肯定就是一直不停地抓取。

另一方面通过受保护内容训练的人工智能模型如果用于商业用途也很容易出现版权纠纷，例如在 CES 2024 上英伟达对其游戏生成式人工智能引擎的训练方式就给出了模棱两可的回答，这引起了诸多担忧，随后英伟达又表示在商业上安全的用来打消开发者的疑虑。

英伟达再次被发现从YouTube及奈飞上抓取数据用来训练人工智能模型