震碎三观！苹果用大量盗版书籍训练AI被起诉

“浓眉大眼”的苹果，也走上了AI训练的灰色捷径？当整个硅谷都在为AI的数据燃料疯狂时，一场针对苹果的集体诉讼，揭开了苹果“白月光”下的苟且。乔布斯“只偷不剽”的祖训，在库克时代被升级成了对技术专利和知识产权内容的系统性、大规模的“白嫖有理”。

科技圈的“AI内容债务”诉讼风暴，终于还是刮到了库比蒂诺。

上周五，一纸诉状递交至加州北区联邦法院，将一向以“注重隐私”和“尊重版权”形象示人的苹果公司推上了被告席。指控内容直截了当，且极具爆炸性：苹果涉嫌非法使用海量受版权保护的盗版书籍，来训练其底层AI模型，且从未向作者寻求许可、署名或支付任何报酬。

这场集体诉讼由作家格兰迪·亨德里克斯（Grady Hendrix）和詹妮弗·罗伯森（Jennifer Roberson）等人发起。他们指控苹果为了构建其庞大的人工智能帝国，建立了一个“巨大的数据图书馆”，而这个图书馆的基石之一，便是从互联网的灰色地带攫取的盗版作品。

这标志着，继Google、Meta、OpenAI和Anthropic之后，最后一家尚未因AI训练数据而陷入重大版权纠纷的科技巨头，也未能幸免。AI的摩天大楼，其地基下的版权争议，已然成为整个行业无法回避的达摩克利斯之剑。

苹果的“第三只手”

诉状描绘了一幅令人不安的画面。

苹果是如何在作者们毫不知情的情况下，将他们的心血之作“喂”给AI的？原告方将矛头直指苹果自家的爬虫工具——Applebot。

诉状称，Applebot如同苹果的“第三只手”，系统性地抓取了互联网上的海量数据，其触角甚至伸向了那些托管着数百万本未经授权的盗版书籍的“影子图书馆”（shadow libraries）。众所周知，这些平台正是数字盗版的温床，也是原告作者们作品被侵权的源头。

“苹果没有试图为这些作者对这个潜在的暴利项目所做的贡献付费。苹果没有寻求许可来复制和使用提供给其模型的受版权保护的书籍，”诉状措辞严厉地指出，“相反，苹果通过使用已经汇集在盗版数据集中的书籍，故意逃避了版税。”

更让原告方愤怒的是，诉讼文件补充说，苹果至今仍然拥有一个私有的AI训练数据库，其中存放着数千本未经作者同意的盗版书籍。这意味着，苹果侵权行为并非过去式，而是一个正在进行的状态。

对于创作者而言，这无异于一场“数字洗劫”。诉状称：“这种行为剥夺了原告和集体成员对其作品的控制权，损害了他们劳动的经济价值，并使苹果能够通过非法手段取得巨大的商业成功。”

这记重拳，精准地打在了苹果“用户利益至上”的品牌软肋上。在今年WWDC上，苹果高调发布Apple Intelligence，并反复强调其对用户数据和隐私的尊重。然而，当涉及训练AI模型所需的海量公开（甚至灰色）数据时，苹果似乎选择了另一套标准。

并非孤例：硅谷巨头的“版权劫”

将视线拉远，苹果的遭遇并非个案，而是整个AI行业面临的系统性困境。为了让大语言模型（LLM）变得更“聪明”、更“博学”，科技公司对高质量文本数据的渴求近乎贪婪，而公开的、经过精心编辑的书籍无疑是最佳的“精神食粮”。

这条“捷径”的代价，正以法律诉讼的形式集中爆发：

Anthropic的“天价和解”：就在苹果被起诉的同一天，AI初创公司Anthropic同意支付高达15亿美元，以了结一桩类似的集体诉讼。作者们指控该公司下载了数百万本书籍的盗版电子版来训练其Claude系列模型。这笔巨额和解金，为AI训练的版权侵权行为标上了一个惊人的价码。
Meta的“合理使用”之辩：今年2月，Meta也因其Llama模型的训练数据来源而被起诉，被指控从多个“影子图书馆”收集了至少81.7TB的数据。然而，剧情在6月份出现了反转。美国地方法院法官文斯·查布里亚（Vince Chhabria）裁定，Meta的这种使用行为可被视为“合理使用”（fair use），因此不构成版权侵权。

Meta案的判决，无疑为科技公司提供了一个强有力的法律挡箭牌，但也让整个争议变得更加扑朔迷离。“合理使用”原则的核心在于“转换性使用”（transformative use），即使用受版权保护的材料是为了创造出全新的、与原作市场不构成竞争的作品。

科技公司坚称，用书籍训练AI模型，产出的是一种全新的、不与原书直接竞争的“智能服务”，这属于典型的“转换性使用”。但创作者们反驳道，AI模型能够总结、模仿甚至续写他们的作品，这直接侵蚀了原作的价值和潜在市场。

苹果的赌局：创新与扼杀创新的边界在哪里？

在这场法律与伦理的拉锯战中，苹果的处境尤为微妙。

一方面，作为后来者，苹果在生成式AI领域的追赶压力巨大。为了让Siri和各类应用具备与ChatGPT、Copilot相抗衡的能力，一个知识渊博的底层模型是不可或缺的。在时间紧、任务重的情况下，利用现成的、海量的网络数据（包括盗版数据）似乎成了一条心照不宣的“高效路径”。

但另一方面，苹果长期以来建立的“封闭花园”生态和对内容创作者的友好姿态，使其无法像其他公司那样轻易地用“合理使用”来为自己辩护。无论是App Store还是Apple Music，苹果的商业模式在很大程度上都建立在与内容创作者分成的基础之上。如今，在AI这个新战场上，苹果却亲自上阵“白嫖”自己的衣食父母，这种角色冲突无疑极具讽刺意味。（这并非苹果第一次白嫖合作伙伴和中小创新者的知识产权成果，例如果链企业共达电声曾起诉苹果窃取其技术专利。）

这场诉讼的结果，将对整个AI行业产生深远影响。

如果法院最终支持作者，可能会迫使所有AI公司重新审视其数据来源，并建立起一套昂贵的版权授权机制，这将极大增加AI的研发成本，甚至可能延缓技术进步的步伐。

但如果法院再次倾向于“合理使用”，则可能意味着在AI时代，传统的版权法正在失效，创作者的权益将面临前所未有的挑战。

无论结果如何，苹果这次都无法再置身事外。那个曾经试图用“1984”广告将自己塑造成挑战者和规则颠覆者的苹果，如今自己成了贪得无厌、无恶不作的垄断者。这场官司拷问的不仅是苹果，也是整个硅谷：当技术革命的巨大诱惑与基本的知识产权保护发生冲突时，谁来保护中小创新者和创作者？

AI的未来，不能建立在一片充满争议的灰色地带之上。“硅谷白月光”苹果公司公然大规模盗窃知识产权内容意味着数据“原罪”的清算时刻，或许已经到来。

震碎三观！苹果用大量盗版书籍训练AI被起诉

苹果的“第三只手”

并非孤例：硅谷巨头的“版权劫”

苹果的赌局：创新与扼杀创新的边界在哪里？

相关文章：