据报道苹果未经许可使用深夜节目主持人和其他人的视频来训练人工智能

导读更新：苹果否认使用未经内容创建者许可获得的数据来训练AppleIntelligence。不过，该公司承认使用YouTube字幕来训练其去年4月发布的开源Ope

更新：苹果否认使用未经内容创建者许可获得的数据来训练AppleIntelligence。不过，该公司承认使用YouTube字幕来训练其去年4月发布的开源OpenELM模型。OpenELM并不支持Apple的AppleIntelligenceAI计划或其任何AI和机器学习功能。

人工智能平台并非开箱即用。它们就像小狗一样，需要接受训练。训练方法是将选定的数据“输入”算法，以便系统能够提供准确的答案。例如，我们在4月份就告诉过你，苹果正在考虑斥资5000万美元从NBCNews、CondéNast(《Vogue》和《纽约客》的出版商)和IAC(《人物》、《美好家园和花园》和《每日野兽》的出版商)等媒体公司获得内容许可，用于人工智能训练。

今天，有消息称苹果和其他公司未经这些视频创作者的许可，就使用YouTube视频内容来训练AI模型。根据这份新报告，第三方创建了一个从170,000多个视频中提取的字幕文件。这些视频包括长期技术评论员MarqueesBrownlee(MKBHD)以及深夜喜剧演员StephenColbert和JimmyKimmel的内容。

据《连线》报道，173,536个YouTube视频的字幕被Anthropic、Nvidia、Apple和Saleorce等硅谷公司使用。这些下载据称是由一家名为EleutherAI的公司完成的，该公司帮助开发人员训练AI模型。据报道，该公司的目标是为小型开发人员和学者创建培训材料。

“科技公司一直肆意妄为。人们担心自己在这件事上别无选择，”凯勒说。“我认为这才是真正的问题所在。”-艾米·凯勒，DiCelloLevitt律师事务所合伙人

然而，像苹果这样的大公司正在使用由EleutherAI创建的名为YouTubeSubtitles的数据集，该数据集不包含图像，但包含视频字幕的纯文本。后者还包括日语、德语和阿拉伯语等语言的翻译。YouTubeSubtitles包含来自12,000多个视频的内容，其中一些已从YouTube上删除。一位不愿透露姓名的创作者删除了他所有在线的视频，发现他的作品仍然包含在某些AI模型中。

问题在于，YouTube上没有一位创作者被征求许可，允许他们制作的视频用于训练AI模型。尽管AI社区成员因未经许可使用内容而遭到诉讼，但OpenAI和Meta等公司为自己的行为辩护称，他们的行为符合合理使用原则，该原则允许在某些情况下未经许可使用受版权保护的材料。