中国大模型语料数据联盟开源发布高质量多模态语料“书生·万卷”

继今年7月在2023世界人工智能大会发起成立“中国大模型语料数据联盟”(以下简称“语料数据联盟”),上海人工智能实验室(上海AI实验室)于8月14日宣布,联合语料数据联盟成员单位,共同开源发布“书生·万卷”1.0多模态预训练语料。

“书生·万卷”1.0目前包含文本数据集、图文数据集、视频数据集三部分,本次开源的数据总量超过2TB。该语料数据包含超过5亿个文本,2200万个图文交错文档,1000个节目影像视频,具备多元融合、精细处理、价值对齐、易用高效等四大特征。

集合语料数据联盟成员丰富的内容积累与上海AI实验室领先的数据处理能力等优势,“书生·万卷”将为学术界及产业界提供更符合主流中文价值对齐的高质量大模型多模态预训练语料。


【资料图】

跨界联合,共建宽领域语料库

本次开源的“书生·万卷”1.0包含文本、图文、视频三部分数据集。其中文本数据为来自网页、百科、书籍、专利、教材、考题等不同来源的清洗后预训练语料,数据总量超过5亿个文档,数据大小超过1TB,覆盖科技、文学、媒体、教育、法律等多个领域。

图文数据主要来自公开网页,经处理后形成图文交错文档。文档总量超过2200万个,数据大小超过140GB(不含图片),覆盖新闻事件、人物、自然景观、社会生活等多个领域。

视频数据主要来自中央广播电视总台和上海文广集团,包含新闻、影视等多种类型的节目影像,总计视频文件数超过1000个,数据大小超过900GB,内容覆盖军事、文艺、体育、自然、真实世界、知识、影像艺术、媒体、美食、历史、科教等方面。

精细处理构建高质量预训练语料

高质量、大规模、安全可信的语料数据对于大语言模型的训练和性能提升至关重要。基于语料数据联盟构建的语料库,上海AI实验室对其中部分数据进行细粒度清洗、去重以及价值对齐,形成了高质量多模态预训练语料“书生·万卷”1.0,具备多元融合、精细处理、价值对齐、易用高效等四大特征。

在多元融合方面,“书生·万卷”1.0包含文本、图文、视频等多模态数据,范围覆盖科技、文学、媒体、教育、法律等多个领域,在训练提升模型知识含量、逻辑推理和泛化能力方面具有显著效果。

在精细处理方面,“书生·万卷”1.0经历了语言甄别、正文抽取、格式标准化、基于规则及模型的数据过滤与清洗、多尺度去重、数据质量评估等精细化数据处理环节,因而能更好地适配后续的模型预训练需求。

在价值对齐方面,研究人员在“书生·万卷”1.0的构建过程中,着眼于内容与中文主流价值观的对齐,通过算法与人工评估结合的方式,提升了语料的纯净度。

在易用高效方面,研究人员在“书生·万卷”1.0采用统一格式,并提供详细的字段说明和工具指导,使其兼顾了易用性和效率,可快速应用于语言、多模态等大模型预训练。

据悉,高质量、多模态、宽领域的数据支持已成为当前人工智能大模型发展的重要基石,中国大模型语料数据联盟将持续通过开源开放,共建包容、开放、有序、共享的人工智能大生态。

上海人工智能实验室是我国人工智能领域的新型科研机构,目标为建成国际一流的人工智能实验室,成为享誉全球的人工智能原创理论和技术的策源地。

中国大模型语料数据联盟是由上海人工智能实验室联合国家气象中心、上海数据集团、上海市数商协会等单位联合发起成立的开放组织。旨在通过链接模型训练、数据供给、学术研究、第三方服务等多方面机构,联合打造多知识、多模态、标准化的高质量语料数据,探索形成基于贡献、可持续运行的激励机制,打造国际化、开放型的大模型语料数据生态圈。

(文章来源:上海证券报)

标签:

最近更新

中国大模型语料数据联盟开源发布高质量多模态语料“书生·万卷”
2023-08-14 20:17:23
安瑞祥专柜羊脂白玉
2023-08-14 19:03:19
爱上秦皇岛的美丨这里是鸟儿自由的天堂
2023-08-14 17:58:05
以成都大运会为例,《大型赛事促进主办城市文明发展的报告》发布
2023-08-14 17:12:24
太行山大峡谷有什么好玩的?
2023-08-14 16:41:07
农业农村部紧急部署蔬菜抗涝减灾和秋冬生产
2023-08-14 16:18:02
遇见福建:暑期博物院里人气旺
2023-08-14 15:57:13
美宾州民宅突爆炸起火,酿5死3伤
2023-08-14 15:20:37
AIG女子公开赛陷入混战 本土赫尔并列领先争冠 殷若宁刘钰T35
2023-08-14 14:56:19
刑事诉讼证据由谁提供
2023-08-14 14:17:14
暴雨大考下保险观察:平安产险的“防救赔”一体化服务
2023-08-14 13:18:17
“西关大少” 梁基永盼重整香港墓葬,冀珍惜“另类”文化遗产
2023-08-14 12:27:24
提升办赛成色的契机
2023-08-14 11:59:36
舜禹股份:8月11日融资买入1927.84万元,融资融券余额4920.63万元
2023-08-14 11:32:44
特斯拉Model Y降价,长续航版最低不到30万!8月新能源车再现降价潮,已有10余家车企出手
2023-08-14 11:02:31
西安成功斩获 NIO Day 2023 主办权,盛会即将登场
2023-08-14 10:34:20
和而泰:8月11日融资净买入355.75万元,连续3日累计净买入1012.21万元
2023-08-14 10:09:38
帝奥微(688381):技术指标出现看涨信号-KDJ 低位金叉(08-14)
2023-08-14 09:39:56
源于日常的艺术,正热忱回馈生活中平凡的你我
2023-08-14 09:23:56
于适回应票房过20亿表演龙吸水:过期可乐已备,酒店录视频安排!
2023-08-14 08:44:35
今日申购指南及新股定位分析
2023-08-14 08:04:34
A股中报密集披露,机构称下半年企业盈利有望进一步改善
2023-08-14 06:51:48
行百里者半九十演讲稿600字(行百里者半九十演讲稿)
2023-08-14 05:13:20
杭州PM2.5指数(杭州pm2.5)
2023-08-14 01:23:55
【专栏】连篇累牍 上
2023-08-13 22:52:14
宁波佩隆塑胶科技有限公司(关于宁波佩隆塑胶科技有限公司简述)
2023-08-13 21:25:52
武清区:陆续回迁 开展有序消杀
2023-08-13 20:21:55
赶黄河大集 享“鱼”乐体验
2023-08-13 19:05:15
梦幻西游奇经八脉花费表(梦幻西游奇经八脉)
2023-08-13 18:07:14
中国男篮输给德国49分,世界杯前还剩两场热身赛了
2023-08-13 17:08:28