当前位置:首页>新闻中心>

Greenplum在医疗大数据领域的应用

上海国际医疗器械展览会定于2021年在上海世博展览馆举办,内容全面涵盖了包括医用电子、医学影像设备、智能医疗、病房护理及辅助设备、医用敷料、体外诊断试剂、光学急救、康复护理以及医疗信息化等,直接并全面服务于医疗器械行业从源头到终端医疗产业链,展会坚持走专业化的特色发展道路,以推动产业升级、行业创新发展为己任,为买家采购交流提供一个医疗行业的饕餮盛宴! 销售总监:杨浩18964878976(微信同号)


Greenplum在医疗大数据领域的应用-智医疗网

今天和大家分享的主题是《Greenplum在医疗大数据领域的应用》,Greenplum这几年越来越火,但在医疗行业里面的应用似乎并不多,个人认为主要原因如下:

首先医疗行业并不是一个特别前沿的行业,不像金融、电信、电力等,在IT设备上投入很大、数据量也非常的高,从而促使这些行业需要不断的追求新技术。而医疗是发展较为缓慢的行业,近年来,虽然医疗行业的大数据也比较火,但是做的好的企业其实并不多。医疗大数据需求很高,但也存在很多的专业性的数据处理需求,如今医疗的信息化发展仍然较为缓慢,需要行业进行更高的投资。接下来我来介绍一下我们医疗数据的具体情况,同时也邀请大家多关注民生行业。

提到医疗行业,就不得不关注医疗数据学。医疗数据有两大特点。

首先,相较于其他行业,医疗数据的规范化程度不高。我们在日常生活中经常能看到医生手写的病历、拍的X光照片,这些都是非结构化的数据,必须经过二次处理才能形成结构化数据;

第二是,单条数据的体量较大,例如基因数据,往往包括成千甚至上万个字段,一条个人信息的原始数据就能达到几个TB。很多数据需要经过精细化的处理才能入库;有一些则需要用到很多人工智能的算法来处理。

Greenplum在医疗大数据领域的应用-智医疗网

基于以上的情况,在选择数据库产品时,我们主要关注以下几点:

1

入门门槛不能太高

由于数据库使用对象以非计算机专业的教授和学生为主,因为大家都是非专业的DBA,在SQL编写上都非常不规范、不熟练,因此需要尽量对标准SQL有很好的兼容;

2

统一化的集群

之前我们也用了很多其他的数据库,例如Oracle、MS SQL、MySQL等,集群数据量达到一定规模后,只能通过分库分表来提高计算性能,非常麻烦;所以我们需要的是一款一体化的集群,集群内部自动完成分库分表操作;

3

现有的数据分析工具多数要求数据离线,不安全;

在这种情况下,在做分析时,需要去别的地方拿数据,比如从hadoop里面去把数据拿出来,因此需要一段等待时间;

4

基因数据放在HBase中,维护不便;

HBase虽然大家应用的也比较多,但是维护和使用都不是很方便;

5

实时性需求较少

医疗行业的数据分析和计算,对数据实时性要求不高;但是我们要求数据变动的最后一个版本,必须为最后版本;这个背景促使我们可以采用小批量入库,多次抓取的方式来处理数据,而不用像那些实时同步工具那样一有变化马上就发送过来;

6

我们没有热数据、温数据和冷数据之分;

我们的数据需要存放在一个地方,最好不要拆分开。在查一个人的基因数据时,有可能需要向前追溯几代人的基因信息,这时也需要有一个强力的计算引擎来快速给出结果。

Greenplum带来了什么?

01

入门门槛较低

Greenplum兼容标准SQL语法,上手较为容易。与PostgreSQL兼容,便于迁移。文档规范,社区活跃。且Greenplum自带完整的运维工具生态,包括备份、迁移、测试、优化等,对运维人员非常友好。

02

MPP架构的优势

Greenplum是一款MPP架构的数据库,可以解决单体数据库无法很好的完成数据拆分并行计算的问题;不需要分库分表,方便运维。Greenplum的批入库效率特别高,之前我们采用insert入库的性能是260行/s左右,经过改造后,入库性能直接能达到10万行/s左右,完全能满足我们的日常数据入库需求;Greenplum支持线性扩容,能满足医疗行业多变需求。Greenplum的高可用支持,不间断恢复,可以保证电子病历、健康档案、基因测序等敏感数据的安全。

Greenplum在医疗大数据领域的应用-智医疗网

03

对R语言的深度支持

R语言是医学、生信领域最常用的统计工具。Greenplum天生支持数据库内分析(In-Database Analysis),尤其是对R语言的支持,这是我们给予厚望的一个功能。利用PivotalR包和MADlib机器学习库,充分利用并行计算优势,突破R语言性能限制。

04

面向分析的关系型数据库

基因数据数据量大、计算密集,非常适合Greenplum。Greenplum的GPText对非结构化文本数据的支持,也很适合医疗领域的医嘱、诊断、检验等。所有数据在线,原始数据低频使用。多表关联查询和复杂查询效率高。

在使用Greenplum之前,我们已经用Oracle有10多年时间了。开始接触Greenplum还是两年前的事,这么短的时间,我们就果断的决定转换阵营,还是由于Greenplum的强大功能。

作者简介

胡锡峰 国家健康医疗大数据研究院 医疗数据治理研究中心主任

预防医学背景,曾主持多个省级医疗信息化项目,拥有16年医疗信息化行业数据库使用经验,在医疗数据汇聚、标准化、大数据应用方向有深刻认识。

来源:腾讯网