AI的‘燃料’是数据。”近日,在超声大数据与人工智能应用与推广大会上,上海交通大学附属瑞金医院教授詹维伟打了一个形象的比喻,他说,驱动AI落地临床,数据的可用性起着基础性的作用。
“顶级期刊刊发的关于医学影像AI的论文大多需要大样本(10万以上)数据库训练。”詹维伟说,海量的数据意味着数据可用、不被污染、且能实现标准化。
而事实上,中国的医学数据看似很多,但是可用性并不高,正是因为存在被污染、信息不健全、难以标准化的三大“痛点”。东南大学生物科学与医学工程学院教授万遂人表示,在多中心的数据库建立过程中,经常出现对同一医学问题的不同说法。他认为需要经过几年的时间,完成行业标准的工作。
另一方面数据的不统一还存在一定的客观原因,例如不同品牌的仪器成像机理和标准不同,因此对于同一病灶输出的影像并不相同,这也大大提高了数据库标准化的难度。
为此专家呼吁相关机构进行数据的标准化工作。“整个医学人工智能的基础是大数据,大数据的基础是我们数据样本的标准库是否建立。”国家卫生健康委员会规划信息司信息处处长沈剑锋表示,标准的医学影像数据库不仅应该对数据进行标准化,还应该对病灶有清晰的标注,且兼顾年龄分布、疾病分类等其他维度的信息。
据介绍,国家卫生健康委员会已经开始着手进行国家层面的数据标准库的建立。并发布了《全国医院信息化建设标准与规范》《全国医院数据上报管理方案》等指导性文件,对包括数据在内的相关信息进行标准规范。
“拥有大数据的第三方公司也应该在数据规范方面从事更多的工作。”詹维伟说。
美年大健康集团董事长俞熔对此表示认同,他说:“我们的600家运营机构去年为两千多万人次提供体检服务,庞大的流量和数据理应承载更多的科研和技术突破的责任。未来将加强相关标准化数据的采集、质量控制、数据分析工作,以便将数据提供给权威部门,助力建立医学影像的专业数据库。”
当天,大数据算法与分析国家工程试验室杭州创新中心、浙江省数理医学学会、美年大健康集团三方达成合作,共建超声大数据库。医学影像AI合作开发联盟同步成立,并发出倡议呼吁各方积极推动资源的高效配置,推动医学影像AI技术落地,通过联合研发共同开展国家级和省市级重大专项、产业化基金、科技发展基金等项目的立项、申报和项目的执行工作,实现产学研的优势结合