3.94 億頁、254 種語言,上架 Hugging Face,為模型添一份可考據的底氣
你是否也曾被 AI「信誓旦旦卻引用不明」的回答誤導過?
生成式 AI 崛起後,資料來源不透明、品質參差不齊,一直是大型語言模型(LLM)最受詬病的痛點。
哈佛大學與波士頓公共圖書館(BPL)決定從根源下手——推出 Institutional Books 1.0:一次釋出 近 100 萬冊、254 種語言、約 3.94 億頁 的公領域原始文獻,並全數上架 Hugging Face,開放研究與模型微調(fine-tuning)自由取用。
—
為何提升資料庫準確性這麼重要?
• 第一手來源:資料直接出自圖書館、博物館館藏,不再是網路二手轉載。
• 語言多樣:英文僅佔不到 50%,其餘橫跨德、法、義、西、拉丁文等;最早文獻可追溯至 15 世紀朝鮮手寫花木隨筆。
• 版面保真:結合 Google 早期掃描檔與 OCR(光學字元辨識)優化,盡可能還原原書排版與註釋。
—
該計畫由哈佛大學主導、獲微軟與 OpenAI 贊助,目標是:
「讓知識機構與 AI 開發者,對『資料完整性』與『公共利益』擁有同一把尺。」
目前已號召多所圖書館、博物館加入,未來預計陸續釋出更多高可信度的原始資料集。
早在 2000 年代,Google 曾協助哈佛掃描大量館藏,嘗試打造 2000 萬冊的線上書庫。計畫一度因版權爭議遭遇訴訟,直到 2016 年美國最高法院裁定屬「合理使用」才告落幕。
此番再度攜手,哈佛與 Google 只開放確定屬公領域的書目,並透過最新 OCR 技術重新校對,盼在法律與技術層面一次補足過往隱憂。
—
這件事對 AI 意味什麼?
• 降低「幻覺」機率:當模型能直接引用原始文獻,錯引/自創引用的機率理論上可降低。
• 增添多語深度:英語比重下降,開啟更多非英語語料訓練與微調的可能。
• 長文本推理測場:3.94 億頁掃描檔,意味著大規模長篇閱讀/摘要測試的素材充足。
但效果究竟多大?還需要使用者實測──「好料」端上桌,能不能煮出佳餚,考驗開發者功力。
—
AI 圈仍在觀察——
唯一可以確定的是,可靠來源已成為下一輪模型競賽的關鍵字。
目前 Institutional Books 1.0 已於 Hugging Face 上線,任何研究者、開發者均可免費下載。未來,圖書館與 AI 社群能否共同打造出一條兼顧「開放」與「可信」的知識供應鏈,將是全球資訊生態的下一道考題。


讀者回應
目前尚無留言。