首页
解决方案
业务领域
新闻中心
- 公司新闻
- 行业新闻
加入我们
关于PG

400-0050-928

您的位置: 首页 > 新闻中心 > 公司新闻

中文高质量数据集加速建设大模型如何更懂“中国话”

　　不同语言的数据对大模型性能有怎样的影响？“数据就像大模型的‘知识教材’，教材的语言属性不同，会对模型的知识体系产生不同影响。”清华大学计算社会科学与国家治理实验室执行主任、教授孟庆国表示。

　　“中文数据中独有的文化习惯、隐喻表达、政策术语等在英文数据中难以得到体现。模型长期学习英文数据，所形成的‘英文式认知逻辑’，在理解中文特有的思维方式时容易出现偏差。”科大讯飞消费者AI交互业务部总经理赵艳军介绍，中文数据比重的提升，增强了大模型对中华文化及中国场景的理解能力。比如中医问诊时，“上火”“湿气”等概念需要中文语境才能准确推理。

　　中文普通数据和中文高质量数据有何区别？普通数据多为未经审核的网络文本、非专业内容，易出现事实错误或概念混淆。而高质量数据需经过“事实核查、专业审核”，语义准确且来源可追溯。

　　要理解中文高质量数据的重要性，可从医疗诊断这一专业场景讲起。今年8月，中文临床医学知识图谱“磐医知识图谱”在浙江台州发布。“当前，一些大模型学习的医学知识，来源于互联网公开数据，而这些公开数据，有的不严谨、有的存在矛盾、有的更新滞后，这些情况都会对大模型生成的结果产生负面影响。”浙江省全省医疗智能决策重点实验室主任林辉表示，“磐医知识图谱”中的数据均由医学专家审核，每个知识点都有明确来源，且动态更新医学进展。

　　Token(通常所说的“词元”)是处理文本的最小数据单元。数据显示，2024年初，我国日均Token的消耗量为1000亿，截至今年9月底，我国日均Token消耗量已突破40万亿。这些数字背后，是中文数据资源的快速积累和价值释放。

　　此外要补场景。我国产业体系完备，其广度和深度决定了需要更多细分场景的中文数据。“比如，在元宇宙等新兴场景中，中文数据使用量仅为英文的1/5；又如，中医、非遗等传统场景数字化程度低，大量宝贵信息尚未转化为可用数据资源。”孟庆国表示，可推动政产学研用协同，专项采集各种垂直场景中文数据，激活产业应用。

　　“十五五”规划建议提出，“推进文化和科技融合”。探索文化和科技融合的有效机制，需要用互联网思维和信息技术改进文化创作生产流程，推动文化建设数智化赋能、信息化转型。

　　“文化IP+科技体验”，重塑文旅产业生态。通过线上数字平台与线下沉浸场景的结合，多地打造数字文旅空间、开发“旅游+智能体”新应用等，实现文化和科技双向赋能。“文化创作+人工智能”，拓展产业融合场景。当前，以大模型为代表PG电子通信的AI技术，与影视、文博等领域深度融合，催生出AI短剧、博物馆数字文创等新产品，不仅丰富了文化表达方式，也培育出更多文化消费新场景。“特色文化+数字技术”，助力乡村全面振兴。通过数字技术，将地标农产品、乡村非遗技艺融入微短剧等内容创作，能够进一步提升特色文化产品的创意能力和表现力，为乡村全面振兴注入新动能。

　　本网站所刊载信息，不代表中新社和中新网观点。刊用本网站稿件，务经书面授权。

　　[网上传播视听节目许可证(0106168)] [京ICP证040655号] [

　　京公网安备 201号] [京ICP备2021034286号-7] [互联网宗教信息服务许可证：京；京]

　　违法和不良信息举报电话：举报邮箱：报受理和处置管理办法总机：86-10-87826688

联系我们

总部地址：

广州市天河区黄村三联路20号A2层210-12

联系电话：13698586692

服务邮箱：service@gzamzc.com

官方网站：www.gzamzc.com

微信公众号：广州PG平台

PG（平台电子）中国-官方网站

400-0050-928

中文高质量数据集加速建设 大模型如何更懂“中国话”

最新资讯

解决方案

业务领域

新闻中心

联系我们

微信公众号

中文高质量数据集加速建设大模型如何更懂“中国话”