用二手書餵養AI？Anthropic被揭「破壞式掃描」數百萬冊圖書蒐集訓練資料

bookmanta編輯陳怡霓

3 個月前

如果有人大筆一揮，買下數百萬冊二手書，動機卻不是為了收藏或閱讀，你會怎麼看？

這不是在講藏書家的怪癖。近期，美國一場關於人工智慧開發公司 Anthropic（聊天機器人 Claude 的開發商）的版權訴訟，意外撕開了 AI 產業最赤裸的「鍊金術」——為了獲取最高品質的訓練資料，AI 團隊正執行著一場名為「巴拿馬計畫（Project Panama）」的清零掃描。

這項計畫的目標冷酷且直白：「掃描世界上所有的書」。

—

▌ 工廠流水線上的「閱讀」

根據法庭文件揭露，Anthropic 每年投入數千萬美元，向二手書商、書籍回收商成批採購。這些書被運往工廠後，等待它們的不是書架，而是液壓裁切機。

程序精準且迅速：機械刀一揮，書背應聲斷開，整本書瞬間被拆解為散頁；隨後，紙張被送入高速掃描器轉化為數位代碼。一旦掃描結束，那些曾經承載情感與思想的紙本便直接送往回收廠銷毀。

對 AI 而言，這不是「讀書」，而是「採礦」。

這不僅僅是版權爭議，更是一種對「書」的傳統想像的崩解。在出版業眼中，這簡直荒謬：書被買下來的目的，竟然是為了被最快地銷毀。創作者嘔心瀝血數年的精華，在機器眼中，不過是一串待壓縮的語料。

—

▌ 法官眼中的「變革性學習」

然而，這場訴訟的進展卻讓出版界心情複雜。聯邦法官威廉·奧索普（William Alsup）在初步裁定中指出，AI 模型透過書籍來學習語言結構、邏輯與表達，隨後生成全新的內容，這具備了法律上的「變革性（Transformative）」，因此屬於合理使用。

法官用了一個很直觀的比喻：這就像一名學生為了學習寫作而遍讀經典。模型並非在「複製」書籍，而是在「理解」文字。

但這個裁決並非給了 AI 公司一張免死金牌。判決書同時畫下紅線：雖然透過合法採購並掃描書籍來訓練是可行的，但 Anthropic 早期若從「影子圖書館（如盜版網站）」直接下載電子書來建立資料庫，這部分仍涉及侵權，必須繼續受審。

這意味著由法律親自判定：你可以買下實體書把它切碎掃描，但你不能走捷徑去下載盜版。

—

▌ 當書籍淪為工業原物料

這起案件在矽谷被奉為技術發展的里程碑，但在文學與出版圈眼中，這卻是一場毫無版權敬意的文明掠奪。

當一本書被當作原物料，在生產線上被肢解、掃描後隨手丟棄，它身為「知識載體」的神聖性已徹底被傲慢的算力消解。這不只是技術的進步，更是對著作權精神的公然踐踏

——科技巨頭打著「合理使用」的旗號，鑽營法律空隙，將創作者數年的心血簡化為冰冷的數位編碼。

在他們眼中，版權不是保護原創的盾牌，而是阻礙創新的絆腳石。未來，我們或許會習慣一種極其諷刺的現象：那些進出二手書店的大宗買家，既不熱愛閱讀，也不尊重知識，他們只是一群貪婪的資料採礦者，計算著這疊紙張能榨取多少位元的權重數值。

AI 確實學會了寫作，但這種學習是建立在數百萬冊圖書的「遺體」與創作者被掠奪的權利之上。當商業利益凌駕於創作尊嚴，當法律選擇站在資本的一方忽視版權公平，這場關於文明底線的拉鋸戰，才真正進入了最黑暗的深水區。

相關連結