OpenAI CTO对视频生成模型Sora数据来源语焉不详引发热议

ITCOW牛新网 3月18日消息，近日，人工智能领域的领头羊OpenAI推出了一款备受瞩目的文本转视频生成模型——Sora。然而，就在技术圈为之沸腾之际，该公司首席技术官Mira Murati在接受华尔街日报采访时，对于Sora训练数据来源的表述却含糊其辞，引发了广泛关注和热议。

在采访中，当被问及Sora训练数据的具体来源时，Murati并未给出明确答复，仅表示使用的是“公开可用数据和许可数据”。对于是否包含YouTube视频的问题，她甚至表示“我实际上并不确定”，并回避了有关Instagram或Facebook视频是否被纳入训练集的问题。

Murati的这番表态让OpenAI陷入了尴尬境地。此前，该公司就曾因数据抓取行为而饱受争议，并面临多起版权诉讼。如今，连公司的首席技术官都无法说清其最热门模型的训练数据来源，这无疑让人对OpenAI在数据使用方面的透明度和合规性产生了质疑。

值得一提的是，在采访结束后，Murati私下承认了确有使用图片素材公司Shutterstock的视频来训练Sora。然而，这并未能平息公众的质疑。相反，人们开始更加关注这些“公开可用且经过许可”的AI训练数据究竟来自何处，以及OpenAI在获取和使用这些数据时是否遵循了相关法律法规和道德规范。

Murati的回避行为引发了网友的热烈讨论。有人认为她缺乏坦诚，作为公司的首席技术官，应该对自家产品的技术细节了如指掌。而她的含糊其辞不仅损害了公司的形象，也让人对OpenAI的技术实力产生了怀疑。

然而，也有人为Murati辩护，认为既然内容已经发布到网络上，就应该允许人工智能公司加以利用。他们认为，用户既然选择公开内容，就应该承担被使用的风险。不过，这种观点并未得到所有人的认同。不少人指出，即使是公开可用的内容，也不意味着可以随意抓取和使用，尤其是在涉及版权和隐私等敏感问题时。