中国网络空间安全协会发布首批中文基础语料库

• 2023年12月26日 09:45 • 新闻 • 阅读 317

2023年12月20日下午，中国网络空间安全协会人工智能安全治理专业委员会在京召开发布会，面向社会发布用于大模型的首批中文基础语料库。

中国网络空间安全协会发布首批中文基础语料库 — 图片来源：http://www.cac.gov.cn/2023-12/21/c_1704735300488236.htm

在办相关业务部门指导下，网安协会人工智能安全治理专委会会同国家权威机构，发挥企业、高校和科研单位协同优势，通过“共建－共享”机制，汇聚一批高质量可信数据，经过去重、过滤等技术手段，形成并对社会发布首批120G中文基础语料，包括1亿余条数据，500亿个token。用户登录中国网络空间安全协会网站（https://www.cybersac.cn/newhome），点击“中文基础语料库”链接，通过注册、认证等程序，就能够下载相关语料。中文基础语料库的发布，是各界协同汇聚形成高质量语料库的初步成果。

中国网络空间安全协会发布首批中文基础语料库 — 图片来源：https://www.cybersac.cn/detail/1738023045047558146

网安协会人工智能安全治理专委会负责人表示，语料库建设是一项长期性、专业性的工作，需要遵循相应法规、标准和规范，需要合力共建、突破创新，推动形成科学有效的语料库汇聚、处理、使用机制，为国家人工智能技术创新和产业发展赋能。

来自专委会成员单位、大模型备案机构和相关领域科研、企业、社会组织代表近100人参加发布会。

中国网络空间安全协会发布首批中文基础语料库 — 图片来源：http://121.36.102.243/

中国网络空间安全协会发布首批中文基础语料库 — 图片来源：http://121.36.102.243/

下载完成以后一共是12个zip压缩文件，共计53.48GB数据。

中国网络空间安全协会发布首批中文基础语料库

中国网络空间安全协会发布首批中文基础语料库

解压缩以后共计得到120个json文件，是已经处理好的结构化JSON文件，共计122.84 GB数据。

中国网络空间安全协会发布首批中文基础语料库

具体到每一个*.json文件来说，文件大小是1GB，大约有90万条数据。总的来说90万✖️120个JSON文件大约是1亿条数据。数据内容上大部分以新闻为主。

虽然在数据中也发现了为数不多的一些重复数据。可能是后期清洗数据“去重”的工作不够完善。

但是总的来说，瑕不掩瑜，这只是国家第一次中文基础语料库。相信未来会有更多的版本发布，并且在数据的数量和质量上都会有进一步的提高。

原创文章，作者：Xaiat，如若转载，请注明出处：https://www.xaiat.com/%e4%b8%ad%e5%9b%bd%e7%bd%91%e7%bb%9c%e7%a9%ba%e9%97%b4%e5%ae%89%e5%85%a8%e5%8d%8f%e4%bc%9a%e5%8f%91%e5%b8%83%e9%a6%96%e6%89%b9%e4%b8%ad%e6%96%87%e5%9f%ba%e7%a1%80%e8%af%ad%e6%96%99%e5%ba%93/

中文基础语料库中国网络空间安全协会人工智能安全治理专业委员会

赞 (4)

新型类脑晶体管在室温下进行高能效联想学习

上一篇 2023年12月25日 09:19

OpenAI正与G42进行新一轮融资谈判，估值可能达到1,000亿美元

下一篇 2023年12月27日 09:28

发表回复

被星链改变的亚马孙部落：“通网”带来的改变和代价
2024年6月21日
分享到:
2022年进入巴西的星链已经将互联网带到了地球上最后的离线地区之一。在马鲁博部落，网络改变了人们的生活，也带来了和别处一样的挑战：成瘾、不实信息、网络色情。
英伟达超越微软，成为全球市值最高公司
2024年6月19日
分享到:
标准普尔全球数据显示，英伟达超越微软和苹果，成为全球市值最高的上市公司。英伟达的飞速崛起得益于生成式人工智能的蓬勃发展，以及对该公司芯片的需求激增。
美国会议员就微软在华业务质询该公司总裁
2024年6月14日
分享到:
在面对众议院国土安全委员会的质询时，微软总裁表示，该公司拒绝了中国政府交出敏感信息的要求。一年前，中国黑客利用微软系统对美国联邦政府网络发起了大规模黑客攻击。
欢迎来到人工智能手机时代
2024年6月11日
分享到:
苹果将在iOS 18系统中对虚拟助手Siri进行改造，它将拥有一个人工智能系统，可以生成图像、回复短信和邮件等；谷歌将用Gemini彻底改造安卓系统，包括检测诈骗等。
SpaceX重型火箭“星舰”第四次试飞成功
2024年6月7日
分享到:
“星舰”的成功试飞表明，马斯克制造迄今最大的运载火箭，并让其能重复使用的愿景可能会再次改变全球航天业。NASA预计将使用“星舰”进行下一次登月任务。
在加速崩塌的中国互联网上，正在消失的集体记忆
2024年6月5日
分享到:
人们发现，中国互联网的早期内容已有很多无法获取，人们的集体在线记忆正在大幅消失。与此同时，中国的网站数量也在萎缩，许多人的网上生活都被抹去了。
OpenAI称中俄利用其人工智能技术操纵舆论
2024年5月31日
分享到:
OpenAI表示，中俄等国利用该公司人工智能技术展开线上活动，以欺骗方式操纵世界各地公众舆论，影响地缘政治。OpenAI称已发现并破坏了五起类似活动。
财富、毒品和性：走上政坛的“硅谷公主”的另一面
2024年5月24日
分享到:
妮可· 沙纳汉是小肯尼迪的副总统候选人，知情人称其资产超10亿美元，主要来自与谷歌创始人的离婚协议；她经常与硅谷精英举行派对、使用毒品；曾与马斯克有婚外情。
马斯克外交哲学：拉拢右翼领导人，然后从中获益
2024年5月23日
分享到:
通过在X上公开支持印度、阿根廷等国的右翼领导人，马斯克的个人外交帮助他最赚钱的企业特斯拉和SpaceX争取并赢得了企业优势。这些元首则获得了更多的国际声望。
“俄罗斯美女”爱中国？一场深伪视频社媒狂欢
2024年5月21日
分享到:
中国社交媒体上充斥着以虚假的俄罗斯年轻女性为主角的深伪视频，它们以民族主义的中国男性为主要目标受众，旨在争取对中俄关系的支持，激发爱国热情或是赚钱。

Xaiat 人工智能艾特让人人更懂AI