更新:苹果否认使用未经内容创建者许可获得的数据来训练AppleIntelligence。不过,该公司承认使用YouTube字幕来训练其去年4月发布的开源OpenELM模型。OpenELM并不支持Apple的AppleIntelligenceAI计划或其任何AI和机器学习功能。
人工智能平台并非开箱即用。它们就像小狗一样,需要接受训练。训练方法是将选定的数据“输入”算法,以便系统能够提供准确的答案。例如,我们在4月份就告诉过你,苹果正在考虑斥资5000万美元从NBCNews、CondéNast(《Vogue》和《纽约客》的出版商)和IAC(《人物》、《美好家园和花园》和《每日野兽》的出版商)等媒体公司获得内容许可,用于人工智能训练。
今天,有消息称苹果和其他公司未经这些视频创作者的许可,就使用YouTube视频内容来训练AI模型。根据这份新报告,第三方创建了一个从170,000多个视频中提取的字幕文件。这些视频包括长期技术评论员MarqueesBrownlee(MKBHD)以及深夜喜剧演员StephenColbert和JimmyKimmel的内容。
据《连线》报道,173,536个YouTube视频的字幕被Anthropic、Nvidia、Apple和Saleorce等硅谷公司使用。这些下载据称是由一家名为EleutherAI的公司完成的,该公司帮助开发人员训练AI模型。据报道,该公司的目标是为小型开发人员和学者创建培训材料。
“科技公司一直肆意妄为。人们担心自己在这件事上别无选择,”凯勒说。“我认为这才是真正的问题所在。”-艾米·凯勒,DiCelloLevitt律师事务所合伙人
然而,像苹果这样的大公司正在使用由EleutherAI创建的名为YouTubeSubtitles的数据集,该数据集不包含图像,但包含视频字幕的纯文本。后者还包括日语、德语和阿拉伯语等语言的翻译。YouTubeSubtitles包含来自12,000多个视频的内容,其中一些已从YouTube上删除。一位不愿透露姓名的创作者删除了他所有在线的视频,发现他的作品仍然包含在某些AI模型中。
问题在于,YouTube上没有一位创作者被征求许可,允许他们制作的视频用于训练AI模型。尽管AI社区成员因未经许可使用内容而遭到诉讼,但OpenAI和Meta等公司为自己的行为辩护称,他们的行为符合合理使用原则,该原则允许在某些情况下未经许可使用受版权保护的材料。