哈佛大学开源近百万册图书数据集助力全球AI研究发展 | AI训练资源开放

AI新闻资讯12小时前发布 AI视野

哈佛大学法学院图书馆于6月16日正式发布其首个AI训练开放数据集“Institutional Books 1.0”,该数据集涵盖馆藏98.3万本图书,包含2420亿个Token,支持245种语言,其中40%为英语文献。书籍出版年代集中于19至20世纪,涉及20个主题分类,并附带完整的元数据(作者、出版年份、语言等)。这一项目由微软与OpenAI提供技术支持,旨在推动学术资源的开放共享。

据披露,数据集中的文献主要来自哈佛大学馆藏,未来计划纳入波士顿公共图书馆的“数百万份”历史报纸数字化资源。哈佛法学院图书馆表示,后续将开发配套AI工具,优化馆藏整理流程,并制定“负责任的数据使用规范”,以促进学术研究的合规性。

此次开源行动正值全球学术界关注数据伦理与资源开放的讨论热潮。尽管近期哈佛大学因国际招生政策争议面临舆论压力(如特朗普政府暂停其国际招生资格),但该校在学术资源共享领域的举措仍获得广泛认可。分析指出,此类高质量数据集的开放,将显著降低AI语言模型的训练门槛,尤其对非英语语种及人文社科领域的模型开发具有突破性意义。

目前,数据集已通过哈佛大学官网向研究人员开放访问。校方强调,该资源仅限非商业研究用途,使用者需遵守相关知识产权协议。

© 版权声明

相关文章