哈佛大学开源近百万册图书数据集助力全球AI研究发展 | AI训练资源开放

AI新闻资讯11个月前发布 AI视野

哈佛大学法学院图书馆于6月16日正式发布其首个AI训练开放数据集“Institutional Books 1.0”，该数据集涵盖馆藏98.3万本图书，包含2420亿个Token，支持245种语言，其中40%为英语文献。书籍出版年代集中于19至20世纪，涉及20个主题分类，并附带完整的元数据（作者、出版年份、语言等）。这一项目由微软与OpenAI提供技术支持，旨在推动学术资源的开放共享。

据披露，数据集中的文献主要来自哈佛大学馆藏，未来计划纳入波士顿公共图书馆的“数百万份”历史报纸数字化资源。哈佛法学院图书馆表示，后续将开发配套AI工具，优化馆藏整理流程，并制定“负责任的数据使用规范”，以促进学术研究的合规性。

此次开源行动正值全球学术界关注数据伦理与资源开放的讨论热潮。尽管近期哈佛大学因国际招生政策争议面临舆论压力（如特朗普政府暂停其国际招生资格），但该校在学术资源共享领域的举措仍获得广泛认可。分析指出，此类高质量数据集的开放，将显著降低AI语言模型的训练门槛，尤其对非英语语种及人文社科领域的模型开发具有突破性意义。

目前，数据集已通过哈佛大学官网向研究人员开放访问。校方强调，该资源仅限非商业研究用途，使用者需遵守相关知识产权协议。

文章版权归作者所有，未经允许请勿转载。

哈佛大学开源近百万册图书数据集助力全球AI研究发展 | AI训练资源开放

开源多智能体框架OWL刷新行业纪录，超越商业系统表现 | AI技术突破

AI产品榜2周年大会即将在深圳举行，聚焦AI技术产品化新趋势

相关文章

英伟达、SK海力士与群联电子联合开发AI专用SSD，性能提升10倍，加速存算一体革命

中国移动牵头国家级AI开源平台“焕新社区”启动，中兴开源11项核心技术成果

亚马逊AI架构重大重组：AGI团队并入新战略单元，AWS老将DeSantis接棒

宇树科技完成C轮融资，估值突破100亿元，加速智能机器人研发

最新资讯

热门AI工具

热门资讯