在办相关业务部门指导下,网安协会人工智能安全治理专委会会同国家权威机构,发挥企业、高校和科研单位协同优势,通过“共建-共享”机制,汇聚一批高质量可信数据,经过去重、过滤等技术手段,形成并对社会发布首批120G中文基础语料,包括1亿余条数据,500亿个token。用户登录中国网络空间安全协会网站(https://www.cybersac.cn/newhome),点击“中文基础语料库”链接,通过注册、认证等程序,就能够下载相关语料。中文基础语料库的发布,是各界协同汇聚形成高质量语料库的初步成果。
网安协会人工智能安全治理专委会负责人表示,语料库建设是一项长期性、专业性的工作,需要遵循相应法规、标准和规范,需要合力共建、突破创新,推动形成科学有效的语料库汇聚、处理、使用机制,为国家人工智能技术创新和产业发展赋能。
来自专委会成员单位、大模型备案机构和相关领域科研、企业、社会组织代表近100人参加发布会。
下载完成以后一共是12个zip压缩文件,共计53.48GB数据。
解压缩以后共计得到120个json文件,是已经处理好的结构化JSON文件,共计122.84 GB数据。
具体到每一个*.json文件来说,文件大小是1GB,大约有90万条数据。总的来说90万✖️120个JSON文件大约是1亿条数据。数据内容上大部分以新闻为主。
虽然在数据中也发现了为数不多的一些重复数据。可能是后期清洗数据“去重”的工作不够完善。
但是总的来说,瑕不掩瑜,这只是国家第一次中文基础语料库。相信未来会有更多的版本发布,并且在数据的数量和质量上都会有进一步的提高。
原创文章,作者:Xaiat,如若转载,请注明出处:https://www.xaiat.com/%e4%b8%ad%e5%9b%bd%e7%bd%91%e7%bb%9c%e7%a9%ba%e9%97%b4%e5%ae%89%e5%85%a8%e5%8d%8f%e4%bc%9a%e5%8f%91%e5%b8%83%e9%a6%96%e6%89%b9%e4%b8%ad%e6%96%87%e5%9f%ba%e7%a1%80%e8%af%ad%e6%96%99%e5%ba%93/