PG(平台电子)中国-官方网站

搜狐AI健康 Nature曝光医疗AI数据集涉嫌造假涉及百余个大模型-PG电子集团

搜狐AI健康 Nature曝光医疗AI数据集涉嫌造假涉及百余个大模型

  

搜狐AI健康 Nature曝光医疗AI数据集涉嫌造假涉及百余个大模型

  医疗AI的数据来源问题一直是业内人士关注的焦点。然而,令人担心的事情还是发生了。Nature近日发文曝光,全球知名数据科学平台Kaggle上两个被广泛引用的医疗AI数据集涉嫌造假,涉及范围多达百余个大模型。

  其中一个涉嫌造假的是卒中患者数据集。这个声称包含5110名患者的数据集只有0.3%的数据缺失率,远远低于常规的数据集,而且缺失的都是同一个项目的数据。在真实的临床研究里,受访者会错过随访、中途退出或死亡,不同受访者丢失的数据项目也不可能全部一样。

  另一个涉嫌造假的是糖尿病患者数据集。这个包含约10万名患者的数据集中只有18个离散的血糖数据,这种分布在临床上完全不合理。而且,BMI 与血糖水平之间理论上存在强相关,但这个数据集里二者完全没有关联。

  当研究团队尝试追溯两个数据集的数据来源时,发现上传者均表示来源机密,拒绝披露。

  截止Nature的曝光文章发表时,卒中数据集已被下载超过27.5万次,糖尿病数据集被下载超过11.4万次,124个大模型使用了这两个数据集,其中有3个已经被应用与临床实践。

  数据集涉嫌造假,用它训练出的大模型也就完全不可信。曝光数据集造假的研究团队呼吁,期刊和平PG电子通信台应要求上传者提供数据集来源报告,使用模拟或伪造数据集的医疗AI大模型绝不能应用于临床一线。