ITCOW牛新网 3月18日消息,近日,人工智能领域的领头羊OpenAI推出了一款备受瞩目的文本转视频生成模型——Sora。然而,就在技术圈为之沸腾之际,该公司首席技术官Mira Murati在接受华尔街日报采访时,对于Sora训练数据来源的表述却含糊其辞,引发了广泛关注和热议。

在采访中,当被问及Sora训练数据的具体来源时,Murati并未给出明确答复,仅表示使用的是“公开可用数据和许可数据”。对于是否包含YouTube视频的问题,她甚至表示“我实际上并不确定”,并回避了有关Instagram或Facebook视频是否被纳入训练集的问题。
Murati的这番表态让OpenAI陷入了尴尬境地。此前,该公司就曾因数据抓取行为而饱受争议,并面临多起版权诉讼。如今,连公司的首席技术官都无法说清其最热门模型的训练数据来源,这无疑让人对OpenAI在数据使用方面的透明度和合规性产生了质疑。
值得一提的是,在采访结束后,Murati私下承认了确有使用图片素材公司Shutterstock的视频来训练Sora。然而,这并未能平息公众的质疑。相反,人们开始更加关注这些“公开可用且经过许可”的AI训练数据究竟来自何处,以及OpenAI在获取和使用这些数据时是否遵循了相关法律法规和道德规范。
Murati的回避行为引发了网友的热烈讨论。有人认为她缺乏坦诚,作为公司的首席技术官,应该对自家产品的技术细节了如指掌。而她的含糊其辞不仅损害了公司的形象,也让人对OpenAI的技术实力产生了怀疑。
然而,也有人为Murati辩护,认为既然内容已经发布到网络上,就应该允许人工智能公司加以利用。他们认为,用户既然选择公开内容,就应该承担被使用的风险。不过,这种观点并未得到所有人的认同。不少人指出,即使是公开可用的内容,也不意味着可以随意抓取和使用,尤其是在涉及版权和隐私等敏感问题时。