OpenAI 首席技术官：不确定 Sora 的训练数据来自哪里

感谢OpenAI 近期推出了炙手可热的文本转视频生成模型 Sora，然而该公司首席技术官 (CTO) Mira Murati 在接受华尔街日报采访时却语焉不详，没法明确说明 Sora 的训练数据来历。在采访中，尔子直接问询 Murati 关于 Sora 训练数据来历时，她仅以含糊的民间话术搪塞：“我们运用的是公然可用数据和允许数据。”当尔子追问具体来历能否包含 YouTube 视频时，Murati 居然表示“我实际上并不确定（I'm actually not sure about that）”，并接受回答有关 In

感谢OpenAI 近期推出了炙手可热的文本转视频生成模型 Sora，然而该公司首席技术官 (CTO) Mira Murati 在接受华尔街日报采访时却语焉不详，没法明确说明 Sora 的训练数据来历。

在采访中，尔子直接问询 Murati 关于 Sora 训练数据来历时，她仅以含糊的民间话术搪塞：“我们运用的是公然可用数据和允许数据。”

当尔子追问具体来历能否包含 YouTube 视频时，Murati 居然表示“我实际上并不确定（I’m actually not sure about that）”，并接受回答有关 Instagram 或 Facebook 视频能否被纳入训练集的问题。她辩称，如果这些视频是公然可用且可以运用的，那么可能会被运用，但她本人对此并不确定。

当尔子问询 OpenAI 能否与其合作伙伴图片素材公司 Shutterstock 达成过数据训练方面的合作，Murati 索性接受继续探讨数据来历话题。

Murati 甚至回避尔子关于 OpenAI 与图片素材巨头 Shutterstock 的数据合作，接受透露来自该平台的视频能否被用于训练 Sora。最终，她干脆中止了相关探讨，坚称数据来历“肯定是公然可用或经过允许的”，却没法给出任何具体细节。

Murati 这番闪烁其词的做法让 OpenAI 陷入尴尬境地。此前，该公司就因数据抓取行为激励广泛争议，甚至面临多起版权诉讼，其中就包括纽约时报的指控。如今，连 CTO 都没法说清其最热门模型的训练数据来历，难免让人怀疑 OpenAI 高层对该问题的重视程度。

据报道，采访结束后，Murati 私下承认了确有运用 Shutterstock 视频训练 Sora。然而，相较于搜集上不计其数的视频实质，来自 Shutterstock 的素材可能只是 Sora 训练数据的一小部分。

IT之家注意到，Murati 的讳莫如深激励了网友热议。不少人认为她缺乏坦诚，质疑其对自身产品的了解程度。有人直言，CTO 居然对如此关键的问题不知情，实在令人难以置信。

然而，也有人为 Murati 辩护，认为既然实质已经发布到搜集，就应该允许人工智能公司加以利用。他们认为，用户既然选择公然实质，就应该承担被运用的风险。

Murati 的回避行为究竟是为了防止更多版权纠纷，还是真的对数据来历一无所知，我们不得而知。但可以肯定的是，公众有权质疑这些“公然可用且经过允许”的 AI 训练数据究竟来自何处。未来，含糊其辞的民间说辞恐怕难以平息人们的疑虑。

{{userData.name}}已认证

OpenAI 首席技术官：不确定 Sora 的训练数据来自哪里

李开复：目前最佳的大模型智能已达人类平均才华程度三倍

大模型增速远超摩尔定律！MIT 最新钻研：人类快要喂不饱 AI 了

微软开源 bitnet.cpp 1-bit LLM 推理框架：不靠 GPU 可本地运行千亿参数 AI 模型，能耗最多降低 82.2%

秒变Midjourney高手！精选 52 条高级感的 sref 风格代码

Meta 用 AI 生成北极光图片，遭网友怒喷

中国电信自研 AI 节能系统：年均节电 8 亿度，节约电费 5.2 亿元

英伟达 CEO 黄仁勋展望公司未来：坐拥 5 万名员工、部署 1 亿个 AI 助手

特斯拉人形机器人 Optimus 现场做饮料，员工证实有人在远程控制

成功率提升15%，浙大、碳硅智慧用LLM进行多属性分子优化，登Nature子刊

中国移动推出“灵犀”家庭智能体，支持智能搜索、对话交互等功能