中国网络空间安全协会发布首批中文基础语料库

2023年12月20日下午,中国网络空间安全协会人工智能安全治理专业委员会在京召开发布会,面向社会发布用于大模型的首批中文基础语料库。

中国网络空间安全协会发布首批中文基础语料库
图片来源:http://www.cac.gov.cn/2023-12/21/c_1704735300488236.htm

在办相关业务部门指导下,网安协会人工智能安全治理专委会会同国家权威机构,发挥企业、高校和科研单位协同优势,通过“共建-共享”机制,汇聚一批高质量可信数据,经过去重、过滤等技术手段,形成并对社会发布首批120G中文基础语料,包括1亿余条数据,500亿个token。用户登录中国网络空间安全协会网站(https://www.cybersac.cn/newhome),点击“中文基础语料库”链接,通过注册、认证等程序,就能够下载相关语料。中文基础语料库的发布,是各界协同汇聚形成高质量语料库的初步成果。

中国网络空间安全协会发布首批中文基础语料库
图片来源:https://www.cybersac.cn/detail/1738023045047558146

网安协会人工智能安全治理专委会负责人表示,语料库建设是一项长期性、专业性的工作,需要遵循相应法规、标准和规范,需要合力共建、突破创新,推动形成科学有效的语料库汇聚、处理、使用机制,为国家人工智能技术创新和产业发展赋能。

来自专委会成员单位、大模型备案机构和相关领域科研、企业、社会组织代表近100人参加发布会。

中国网络空间安全协会发布首批中文基础语料库
图片来源:http://121.36.102.243/
中国网络空间安全协会发布首批中文基础语料库
图片来源:http://121.36.102.243/

下载完成以后一共是12个zip压缩文件,共计53.48GB数据。

中国网络空间安全协会发布首批中文基础语料库
中国网络空间安全协会发布首批中文基础语料库

解压缩以后共计得到120个json文件,是已经处理好的结构化JSON文件,共计122.84 GB数据。

中国网络空间安全协会发布首批中文基础语料库

具体到每一个*.json文件来说,文件大小是1GB,大约有90万条数据。总的来说90万✖️120个JSON文件大约是1亿条数据。数据内容上大部分以新闻为主。

虽然在数据中也发现了为数不多的一些重复数据。可能是后期清洗数据“去重”的工作不够完善。

但是总的来说,瑕不掩瑜,这只是国家第一次中文基础语料库。相信未来会有更多的版本发布,并且在数据的数量和质量上都会有进一步的提高。

原创文章,作者:Xaiat超级会员,如若转载,请注明出处:https://www.xaiat.com/%e4%b8%ad%e5%9b%bd%e7%bd%91%e7%bb%9c%e7%a9%ba%e9%97%b4%e5%ae%89%e5%85%a8%e5%8d%8f%e4%bc%9a%e5%8f%91%e5%b8%83%e9%a6%96%e6%89%b9%e4%b8%ad%e6%96%87%e5%9f%ba%e7%a1%80%e8%af%ad%e6%96%99%e5%ba%93/

(4)
Xaiat的头像Xaiat超级会员管理员
上一篇 2023年12月25日 09:19
下一篇 2023年12月27日 09:28

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

Xaiat 人工智能艾特 让人人更懂AI