#文化新聞,出版時事,科技倫理,AI倫理,二手書

用二手書餵養AI?Anthropic被揭「破壞式掃描」數百萬冊圖書蒐集訓練資料

bookmanta編輯陳怡霓
3 個月前
用二手書餵養AI?Anthropic被揭「破壞式掃描」數百萬冊圖書蒐集訓練資料

如果有人大筆一揮,買下數百萬冊二手書,動機卻不是為了收藏或閱讀,你會怎麼看?

這不是在講藏書家的怪癖。近期,美國一場關於人工智慧開發公司 Anthropic聊天機器人 Claude 的開發商)的版權訴訟,意外撕開了 AI 產業最赤裸的「鍊金術」——為了獲取最高品質的訓練資料,AI 團隊正執行著一場名為「巴拿馬計畫(Project Panama」的清零掃描。

這項計畫的目標冷酷且直白:「掃描世界上所有的書」。

工廠流水線上的「閱讀」

根據法庭文件揭露,Anthropic 每年投入數千萬美元,向二手書商、書籍回收商成批採購。這些書被運往工廠後,等待它們的不是書架,而是液壓裁切機。

程序精準且迅速:機械刀一揮,書背應聲斷開,整本書瞬間被拆解為散頁;隨後,紙張被送入高速掃描器轉化為數位代碼。一旦掃描結束,那些曾經承載情感與思想的紙本便直接送往回收廠銷毀。


AI 而言,這不是「讀書」,而是「採礦」。

這不僅僅是版權爭議,更是一種對「書」的傳統想像的崩解。在出版業眼中,這簡直荒謬:書被買下來的目的,竟然是為了被最快地銷毀。創作者嘔心瀝血數年的精華,在機器眼中,不過是一串待壓縮的語料。

法官眼中的「變革性學習」

然而,這場訴訟的進展卻讓出版界心情複雜。聯邦法官威廉·奧索普(William Alsup)在初步裁定中指出,AI 模型透過書籍來學習語言結構、邏輯與表達,隨後生成全新的內容,這具備了法律上的「變革性(Transformative)」,因此屬於合理使用。


法官用了一個很直觀的比喻:這就像一名學生為了學習寫作而遍讀經典。模型並非在「複製」書籍,而是在「理解」文字。

但這個裁決並非給了 AI 公司一張免死金牌。判決書同時畫下紅線:雖然透過合法採購並掃描書籍來訓練是可行的,但 Anthropic 早期若從「影子圖書館(如盜版網站)」直接下載電子書來建立資料庫,這部分仍涉及侵權,必須繼續受審。

 

這意味著由法律親自判定:你可以買下實體書把它切碎掃描,但你不能走捷徑去下載盜版。

當書籍淪為工業原物料

這起案件在矽谷被奉為技術發展的里程碑,但在文學與出版圈眼中,這卻是一場毫無版權敬意的文明掠奪。

當一本書被當作原物料,在生產線上被肢解、掃描後隨手丟棄,它身為「知識載體」的神聖性已徹底被傲慢的算力消解。這不只是技術的進步,更是對著作權精神的公然踐踏

——科技巨頭打著「合理使用」的旗號,鑽營法律空隙,將創作者數年的心血簡化為冰冷的數位編碼。


在他們眼中,
版權不是保護原創的盾牌,而是阻礙創新的絆腳石。未來,我們或許會習慣一種極其諷刺的現象:那些進出二手書店的大宗買家,既不熱愛閱讀,也不尊重知識,他們只是一群貪婪的資料採礦者,計算著這疊紙張能榨取多少位元的權重數值。

AI
確實學會了寫作,但這種學習是建立在數百萬冊圖書的「遺體」與創作者被掠奪的權利之上。當商業利益凌駕於創作尊嚴,當法律選擇站在資本的一方忽視版權公平,這場關於文明底線的拉鋸戰,才真正進入了最黑暗的深水區。

相關連結

Anthropic ‘destructively’ scanned millions of books to build ClaudeThe Washington Post
2026-02-10
用百萬本書訓練AI犯不犯法?Claude母公司獲「合理使用」勝利判決,但用盜版書部分還是得罰TNL The News Lens 關鍵評論網
2025-02-25

目前尚無留言。