哈佛 × 波士頓公共圖書館：百萬冊「原典館藏」正式入列 AI 資料庫

bookmanta編輯陳怡霓

11 個月前

3.94 億頁、254 種語言，上架 Hugging Face，為模型添一份可考據的底氣

你是否也曾被 AI「信誓旦旦卻引用不明」的回答誤導過？

生成式 AI 崛起後，資料來源不透明、品質參差不齊，一直是大型語言模型（LLM）最受詬病的痛點。

哈佛大學與波士頓公共圖書館（BPL）決定從根源下手——推出 Institutional Books 1.0：一次釋出近 100 萬冊、254 種語言、約 3.94 億頁的公領域原始文獻，並全數上架 Hugging Face，開放研究與模型微調（fine-tuning）自由取用。

—

為何提升資料庫準確性這麼重要？

• 第一手來源：資料直接出自圖書館、博物館館藏，不再是網路二手轉載。

• 語言多樣：英文僅佔不到 50%，其餘橫跨德、法、義、西、拉丁文等；最早文獻可追溯至 15 世紀朝鮮手寫花木隨筆。

• 版面保真：結合 Google 早期掃描檔與 OCR（光學字元辨識）優化，盡可能還原原書排版與註釋。

—

該計畫由哈佛大學主導、獲微軟與 OpenAI 贊助，目標是：

「讓知識機構與 AI 開發者，對『資料完整性』與『公共利益』擁有同一把尺。」

目前已號召多所圖書館、博物館加入，未來預計陸續釋出更多高可信度的原始資料集。

早在 2000 年代，Google 曾協助哈佛掃描大量館藏，嘗試打造 2000 萬冊的線上書庫。計畫一度因版權爭議遭遇訴訟，直到 2016 年美國最高法院裁定屬「合理使用」才告落幕。

此番再度攜手，哈佛與 Google 只開放確定屬公領域的書目，並透過最新 OCR 技術重新校對，盼在法律與技術層面一次補足過往隱憂。

—

這件事對 AI 意味什麼？

• 降低「幻覺」機率：當模型能直接引用原始文獻，錯引／自創引用的機率理論上可降低。

• 增添多語深度：英語比重下降，開啟更多非英語語料訓練與微調的可能。

• 長文本推理測場：3.94 億頁掃描檔，意味著大規模長篇閱讀／摘要測試的素材充足。

但效果究竟多大？還需要使用者實測──「好料」端上桌，能不能煮出佳餚，考驗開發者功力。

—

AI 圈仍在觀察——

唯一可以確定的是，可靠來源已成為下一輪模型競賽的關鍵字。

目前 Institutional Books 1.0 已於 Hugging Face 上線，任何研究者、開發者均可免費下載。未來，圖書館與 AI 社群能否共同打造出一條兼顧「開放」與「可信」的知識供應鏈，將是全球資訊生態的下一道考題。

相關連結