PG(平台电子)中国-官方网站

行业大模型的“燃料革命”:高质量数据集助推产业智能升级_通信世界网-PG电子集团

行业大模型的“燃料革命”:高质量数据集助推产业智能升级_通信世界网

  

行业大模型的“燃料革命”:高质量数据集助推产业智能升级_通信世界网

  (CWW)在数字化转型浪潮中,行业大模型被视为推动产业升级的核心引擎。但是,当前大多数行业大模型面临着训练数据的质量缺陷导致模型“逻辑混乱的伪推理”巨大挑战。2025年4月30日全国数据标准化技术委员会秘书处发布了《高质量数据集建设指南(征求意见稿)》,对高质量数据集建设的全生命周期要求,包括数据需求、数据规划、数据采集、数据预处理、数据标注、模型验证等阶段提出了建设指南,同时对高质量数据集分类、质量评测规范、面向数据流通的匿名化效果评估方法及处理实施、数据基础设施的参考架构、互联互通基本要求等都拟定了标准草案,标志着中国产业智能化将进入“数据精耕”时代。唯有持续完善数据的供给、标准、安全、价值多向发力,才能让行业大模型真正成为驱动产业升级的“超级引擎”,在这场全球智能竞赛中抢占制高点。

  首先,数据供给不足。行业大模型对数据的需求多样,不同行业部门对模型场景数据的需求各不相同,特别是在工业、医疗、金融、交通等垂直领域,公共数据来源显著不足,难以满足大模型训练的需求。大型平台或企业出于商业利益与知识产权的考虑,更倾向于独享数据资源,常以保护信息、防范安全风险等理由拒绝共享数据。

  其次,数据质量参差不齐。在行业大模型的实际建设中,对于构建和采买的数据没有统一衡量标准,不同系统产生的数据格式多样,行业数据集普遍存在分布偏差、颗粒度不一致、采集缺失甚至错误数据等问题,极大影响了大模型的训练效果和预测准确性,造成训练资源浪费。而且在数据标注智能化、专业化程度目前都比较初级,专业数据处理人员数量缺口较级新浪潮

  这场由高质量数据集引发的“燃料革命”,正在重塑行业大模型的发展逻辑,数据质量决定模型智能上限、数据生态构建产业竞争壁垒。行业高质量数据集的加速汇聚共享,将为人工智能产业发展提供充足燃料,针对不同场景进行持续训练优化,推动行业大模型的落地应用,助力产业智能化升级。

  高质量数据集可通过强化标准引领,建立标准化数据集体系,从通识数据集、行业通识数据集、行业专识数据集分类着手,按照高质量数据集的生命周期有序展开,包括数据需求、数据采集、数据处理、数据管理、模型验证等阶段,各阶段按顺序逐步开展,并对其它阶段有序进行反馈和迭代。

  数据源充足的高质量数据集是行业大模型训练的“营养基”,能够显著提升模型的准确性和泛化能力,加载更丰富的行业场景数据,提升模型在特定领域的专业性和适配性。如上海中城交通达大模型,利用其积累多年的交通行业专用语料库,整合了6大类30小类多模态数据集,超200万份行业技术文档、10万公里道路设施数字档案、5万例管理场景案例,为大模型训练和推理提供数据基础,精准制定交通信号优化方案,在试点城市让路口的通行效率提升15%左右,推动行业发展与创新。

  根据行业特点,对于数据的颗粒度,根据业务需求设定统一的规范,如数据来源、数据格式、数据质量、数据接口等,规范数据采集流程并做好数据挖掘、分析、应用和管理,由此形成的高质量数据集能够为行业大模型提供精准、丰富的训练素材,提升模型在特定领域的性能和适应性,行业大模型在更多领域的深度应用,加速行业的数字化转型。如中国电子科技集团联合国家能源集团构建了超10万组高质量光谱煤质数据集,研发了“融合光PG电子通信谱煤质快检技术”,大幅提升了检测效能,检测时间由8小时减至2分钟,检测能力由1克提升至1000千克以上,复杂煤种通过率从60%提升到100%。

  国家提出了数场、数联网、数据元件、数据空间、隐私计算和区块链等六条技术路线,推动形成横向联通、纵向贯通、协调有力的国家数据基础设施基本格局。高质量数据集的建设不仅可以提升数据的可用性,还通过数据流通基础设施加速了数据的开放共享,充分释放数据要素价值并构建完备的数据生态,推动传统行业的数字化升级。

  高质量数据集结合大模型与智能体开发框架,可快速构建各类行业应用,赋能各行业的数智化转型。如国家能源投资集团研发的煤炭工业设备综合诊断运维大模型,覆盖27类关键设备,实现故障预警准确率超90%、诊断准确率超85%,设备综合寿命提升20%,年检修成本降低15%,实现煤炭行业在减人、增安、提效等方面的智能化升级。