医疗、基因与人工智能顶级专家沙龙实录

嘉宾:

1)Eric Xing卡耐基梅隆大学(CMU)教授,Petuum CEO,机器学习和健康中心主任,国际机器学习大会(ICML2014主席 

2【王俊】前华大基因CEO,碳云智能科技创始人,973首席科学家 

3【吴文辉】前西门子医疗东北亚CEO,中科九峰医疗创始人 

4【苏中】IBM中国研究院认知计算研究总监 

5【周翔】西门子医疗美国创新与开发主管,资深医学影像处理科学家 

主持人:

雷鸣】北大大数据与机器学习创新中心主任;百度七剑客,酷我创始人 

形式:实时互动,30多个微信群进行沙龙直播 

内容点 

1)当前智能医疗在数据、算法、体制、人才、商业模式等方面的现状和挑战 

2)未来5年可能出现的突破 

3)深度学习在处理医疗大数据时发挥的作用 

4)人工智能诊断的发展水平 

5)当前智能医疗创业的机会 

6)对未来智能医疗的畅想 

 

环节一:沙龙对话


话题一:智能医疗的现状是什么,为什么还没有太大突破?

 


【雷鸣】下面我们进入第一个话题 - 智能医疗的现状是什么,为什么还没有太大突破?请各位嘉宾畅所欲言。 

【周翔】我谈一下在美国的现状。医疗系统近年来最关注的是成本、效率和政策(比如Obama Care)问题。智能的话题大都在边缘领域造声势,至今并未全面和直接改变大医院系统的操作运行。但是今年的RSNA(北美放射年会)的开门主题就是智能化,所以这个话题还会持续升温。但是请记住:任何智能系统必须与降成本、提效率、顺政策挂上钩,才能有希望达到快速的成功。

【苏中】人工智能近几年在很多行业应用中都有了很大的突破。同以往相比,突破的基础来源于对于大数据的成功应用。在医疗领域,由于医疗大数据的不断发展,也积攒下相当多的数据,例如医疗文献、研究报告数据、临床数据、基因数据。

【吴文辉】数据的规模及质量还有待提升,最大的一个挑战是数据科学家与临床的结合。

Eric Xing人工智能在健康医疗起到的作用还非常小,算法的水平还非常原始,医疗的智能化基本还没有实现。

【雷鸣】我是否可以认为,现在的智能医疗还属于非常早期? 

Eric Xing现在关注点还处在数据采集、存储、检索,而不是在学习、建模和基于数据的预测,还没有实现统计意义上的个性化,甚至这方面的研究还没有开展。医疗数据的数量很大,特别是电子数据和基因组数据,但是人工智能所实现的功能还非常弱。

【雷鸣】智能医疗现在的主要问题是什么?政策,数据,算法,还是计算能力? 

【王俊】智能医疗的精准度、数据、体制、人才和商业模式。基因组数据现在还不是医疗数据。其实不用大而全,找个痛点就行。另外,普通老百姓对智能医疗的容忍度是什么样的?智能医疗出错怎么办?因为医生是会出错的;对于很多疾病的理解,现在都非常不到位。

【苏中】在生活当中,我们还没有太多感受到智能医疗给我们带来的变化。一方面,数据的积累是个过程;在医学方面,数据共享有隐私和法律的问题,医疗机构中实际使用的IT系统在医学数据标准的广泛采用上仍然需要时间,数据质量以及对于医学数据的标注需要大量的工作。另外,多数技术还处于实验室阶段,技术的成熟在多数领域还需要投入更多的研发。

【雷鸣】@苏中,你提到的主要是缺乏大量的高质量数据,对吧?我曾经和谷歌的几位人工智能科学家沟通过,他们提到医疗的时候,也提到了数据很头疼。

【苏中】对,数据质量是一个很大问题,医院采用的电子病历系统没有使用同样的数据标准。即便采用统一标准,没有规范和管理的数据录入也会带来了很多的噪声。不过,在智能医疗方面还是有一些进展的。

【雷鸣】@苏中,我曾经指导学生处理过中国的病例,后来发现挖掘不出非常显著的特征。后来找了医生来看,他们看到病历后很挠头,说根据病历记录,他们都没有办法得到诊断结论。

Eric Xing噪音不是主要问题,数据库操作对噪音很敏感,好的机器学习算法对噪音是有抵抗力的。但是现在大量的人工智能研究和研究者对医疗行业的需求和问题还很不了解,对这方面有针对性的研究和开发还很弱。

【雷鸣】一定的噪音可能还可以,如果质量差到一定程度,估计难度就大很多了吧?实现的功能弱,主要瓶颈是什么?@Eric 

Eric Xing我认为主要的问题不是在数据上;进入数据库之后,到实现人工智能这一步,在目前的医疗系统中还没有看到。功能弱的主要原因有两点。第一,数据采集和存储方式和人工智能算法无法实现对接;第二,机器学习算法本身的开发和创新还不够。很多非人工智能和机器学习的人士获得了很多话语权,但他们的见解并不精确。噪音是有影响,但是以我现在观察到的现有数据的质量,包括电子数据和基因组,噪音不是主要问题。比如,一张组织学切片或者X光照片,噪音度是很低的。但是,困难在于解释图片和理解图片中的致病因素。

【周翔】为什么没有太大突破?

1)大系统的系统性惯性:举一个例子,大医院(集团)买一套信息系统,安装一年,培训两年(各科室各部门),磨合三年,一个回合下来十年就过去了。智能创新不容易快速接入这个漫长的周期。一般来说,医疗健康领域的系统惯性好像比很多其他行业都要大很多。

2)优先性/紧迫性不够:如前所述,美国医疗体系的燃眉之急和压力来源是医改和成本结构。凡是不能救近火的远水型创新都不容易登上议事日程。

3)算法和技术还未到位:CAD,特别是mammoCAD,在过去近十年经历了过度承诺(overpromise)和泡沬化的历程,几个长期临床研究对其绩效提出了质疑。究其根源,至少有两个原因:一个是政策性医保报销(reimbursement)使这个领域过早商业化、短视化、功利化;第二个更根本的原因是智能算法(计算机视觉和模式识别)并未达到足够成熟的程度。今天,深度学习是最热的话题,但是人们好像忘记了即使深度学习也会犯错和过拟合(overfitting)。


话题二:在最近5年里,智能医疗会有那些看得见的突破? 


【雷鸣】那我们现在转到下一个话题,大家觉得在最近5年里,智能医疗会有那些看得见的突破? 

【苏中】1.机器智能辅助(个性化)医疗诊断;2.基于大数据的新药研发;3.利用穿戴式设备等各类传感器辅助康复和照看。基于机器学习的大数据分析和多媒体信号处理,帮助医疗技术有很大发展。个人觉得基因技术和穿戴式设备在智能医疗领域的运用,会是未来5年的亮点。

【周翔】医疗领域是一个非常复杂的领域,进入的门槛很高。有私密性的问题,还有很多历史性包袱,也难怪数据科学家进不来。

【王俊】诊断比治疗的机会大些。

Eric Xing突破点将产生在对医疗数据的大规模分析和对疾病的更深度理解。在各方面都会有突破,不只是影像,特别是基于对电子医疗数据的预测的高维模型的建立,对于大量医疗病例的理解和消化。

【吴文辉】未来五年,人工智能在影像领域会有突破,利用影像组学、结构影像、功能影像、分子影像、基因病例的肺癌影像诊断等。 

【雷鸣】@王俊,你觉得基因方面会有所突破吗?基于基因的疾病预测,个性化诊断等?  

【王俊】基因方面的突破是必然的。但基因不是全部,不等同于健康。没有基因在不同情况下的运行结果,基因检测本身有很多局限性。 

【雷鸣】@Eric,你说的是诊断方面吗?  

Eric Xing包括诊断和治疗。基因在医疗健康方面的作用很重要,但不是唯一,甚至不一定是主要的。大部分疾病并不是遗传病。比如,对于微生物、病毒、无机毒、机械伤害甚至环境因子导致的疾病,基因在里面的作用并不显著,或者是没有。影像是一方面,更重要的是电子医疗数据,包括病例、流程、体征数据、实验室数据、生命数据的理解;一个好的系统会对这些数据做综合建模。

【苏中】很多的疾病,特别是慢性病,病人的行为习惯对于病程有很大的影响。 

【王俊】@Eric大部分疾病不是遗传病,但大部分疾病都有遗传因素。 

【苏中】医疗影像技术确实有很大的发展。IBM的研究团队有一个项目叫医疗筛,就是帮助放射科医生对各种断层图像(CT,核磁等)做自动的分析。在未来五年,基因技术将用于个性化医疗或被广泛使用,特别是癌症的治疗。利用穿戴式设备帮助病人康复、慢病管理以及老人照看等方面会有很多的应用 

【周翔】@苏中 医疗筛(medical sieve)在图像处理方面并不领先,主要是多模数据集成和推理。IBMWatson Health正在这一领域大造声势,招兵买店,压大注全力一搏。是否会达到商业成功,还说不定。但至少会带来某些局部领域的革命。

【苏中】@周翔 同意,数据以及数据标注仍然是医疗影像方面需要解决的问题。 

【王俊】所以全面的多层次的组学数据是关键。 

Eric Xing@王俊不同意。即使在基因组学内,单纯使用致病基因做单点和多点预测找突变,效果是不够的,会有很高的漏检率;需要做遗传学和病理学的疾病模型。目前的测序公司还基本没有这方面的能力。 

【王俊】@Eric你说的病毒感染,对于不同免疫基因突变和HLA型的人就会有不同反应,这叫遗传因素影响。所以一个真正的、全面的解决方案,需要结合电子医疗数据、移动设备数据、医院数据、基因组学数据,做综合性的高维预测和建模。 

【苏中】还有个人的行为数据、家族的数据。 

【雷鸣】看来大家对医学影像方面会有所突破,还是抱有乐观态度的。那5年之内,会有很多的突破应用在临床吗?  

【吴文辉】是的,肺癌影像软件诊断的准确率可以超过80% 

【雷鸣】大家对未来提出了很多可能性,但是大家觉得那种会最先到千家万户呢?在最近5年里面,会有什么真正会让大众受益的东西?  

【吴文辉】诊断及治疗会最容易满足市场需求,比如Flatiron 

【苏中】关于基因测序用于医疗,王俊是专家。 

【雷鸣】好像基因测序对于癌症治疗方案方面,现在有很大的帮助,对吧?但在每个分支方向上还有很多问题要解决,只在很有限的几个病上有进展。  

【苏中】@雷鸣是的,IBMWatson最近在脑肿瘤方面,利用基因测序实现个性化医疗有一些进展。 

Eric Xing基因在医疗诊断和治病的作用其实是被夸大了。大部分的病,包括癌症,并不像镰刀贫血症那样有一两个致病突变。比如乳腺癌,BRCA基因的突变只占了病人中的不到30%;至于其他癌症,已知突变基因所占的解释率更低。没有靶向药物,对于病人就价值有限了,所以了解基因图谱只是puzzel中的一部分。 

【王俊】没有必要夸大基因的作用,但基因是一套预设的生命程序。三十年前,吃不饱肚子,没什么糖尿病;同一套基因,三十年后,糖尿病加糖尿病前期在成年人中就25%了。所以,光有基因是肯定不行的,所以才要多组学数据。这也是我创办碳云智能的原因。 

【雷鸣】@苏中,现在在医学诊断方面,IBM可以被认为是走在最前面吗?那最近IBM有什么计划,估计最近会有什么突破?  

【苏中】IBM成立了WatsonHealth事业部,有很多的动作;结合医疗文献的文本分析技术,也会帮助个性化医疗。数据积累是个过程,WatsonHealth最近收购了几家公司,有了数据才能更好的结合算法。 

Eric Xing关于IBMWatson系统,我认为只是一个品牌,系统内部的模块、算法、正确率、漏判率、误判率很少有公开报道,所以它的真正效果还有待观察。 

【周翔】同意Eric。另外,我认为以谷歌为领头的分布式智能将来可以与IBMWatson Health集中式智能好有一拼;正如当初PC打败了中央机。但是健康医疗知识的积累是有永久效益的,并不随技术进步而过时。所以这一战谁胜谁负,不好判断。可能最后会共生。 

【雷鸣】任何系统开始都不完备,只要看到希望,就会不断提升。这一块,越多的巨头和机构关注,也有越来越多的人参与创业,就会促进整个产业发展,是好事情啊。 

【雷鸣】@Eric,请你也介绍一下你在CMU 机器学习和健康中心的研究重点,估计会有什么突破吗?  

Eric XingCMU机器学习和健康中心的重点正是包括了在结合电子医疗数据、移动设备数据、医院数据、基因组学数据,做综合性的高维预测和建模,以及进一步的基础研究和软件开发工作。 

Eric Xing希望能把结果共享,让大家能做客观评测,而不是使用公共平台做不对称造势。目前对算法和理论的重视度还很不够,基本上没有看到过这方面的专业性文章和有深度的理论和软件开发探讨。这些公司的一个核心弱点是单纯存在于IT世界,和医院、患者、医生的对接交流不够,这也是CMU中心成立的初衷之一。我们的每一个项目都直接在医院的平台上进行,直接和医疗的环境、传统、数据行为和诊断行为对接。 

【苏中】@Eric同意。开放才能促进技术发展与应用。需要构建一个开放的生态圈,把病人、医院、研究机构、药厂、政府机构等相关方都能带进来。 

【雷鸣】不管IBM、谷歌、还是其他公司,最后都是要靠效果说话的,这就验证了我们创业的一句话- 只有用户认可,才能真正生存和发展。

  

话题三:深度学习在医疗大数据方面的作用 

 

【雷鸣】医疗大数据处理这块,大家怎么看深度学习的作用?  

【雷鸣】@Eric我了解美国对医学数据控制很严(考虑病人隐私),这会是很大的障碍吗?  

Eric Xing不是障碍,是很重要和必要的一个对研究手段进行规范化的限制,能保证高质量的结果。关于深度学习,它只是机器学习众多算法中的很小一部分,只对特定任务有较好表现,它的作用和普适性被严重夸大了。图像只是众多因素之一,因此不能说深度学习的作用有压倒性的结果。 

【苏中】在医疗中,基于专家构建的医学知识规则库或比基于深度学习的大数据方法更有效。 

在图像分类方面,深度学习有效果。但医学图像处理,更像是图像分割和异常检测。CNN更多的是归纳图像内容的共性,医学图像处理需要找个性 

Eric Xing同意。个性化是CNN还无法触及的领域,它需要基于正规的统计模型和理论的支持。而深度学习基本上处于黑盒子的状态,很难进行统计学意义上的扩展和个性化。比如说对每个病人进行建模。 

【雷鸣】认可。当前的状态,还是多模型的混合更靠谱。我了解LSTM在机器翻译上,用于端对端的翻译,已经超过其他算法了。我觉得深度学习在处理图像和音频上,好像还是有些优势的。 

【吴文辉】@雷鸣,CNN有进步,但不够。 

【周翔】今后几年可能会看到深度学习的普及、商品化(Commoditization),然后饱和化。原因之一是开源运动(opensource movement),原因之二是过度承诺(overpromise)。但是,机器学习的大潮不会退,只是不断会有新一代的算法涌现出来。

【苏中】有多少人工,就有多少智能。基于数据的智能还是有很大的局限性,例如冷启动问题。深度学习具有基于数据的归纳能力,医疗诊断需要更多的推理能力。

Eric Xing@苏中机器学习内部有很多解决方案,只是理论门槛比较高,不像深度学习那样好忽悠。 

【周翔】CAD,特别是mammoCAD,在过去近十年经历了过度承诺(overpromise)和泡沬化的历程,几个长期临床研究对其绩效提出了质疑。深度学习不要重蹈覆辙。


话题四:人工智能诊断的发展水平 

 

【雷鸣】我提一个问题,大家觉得人工智能诊断需要几年时间,可以在常见病诊断上达到医生水平?  

【王俊】常见病要长一点,罕见病会很快。

【雷鸣】你的观点很特别,为什么呢?常见病的数据多,应该更容易学习才对啊。 

【王俊】因为对常见病的理解,往往我们是不清楚的,如代谢类疾病;而且医生的认知也是不一致的。但很多罕见病,一旦病因被了解,会很容易诊断。还有,达到医生的水平,也分什么水平的医生。

【周翔】@王俊我同意你的说法。Watson几年前的演示是Lymedisease,症状是靶型红斑;不常见,但是有很独特的症状。

【吴文辉】现有的先进的影像软件可以超过基层医院放射科的水平。关于智慧医疗的发展路径,

1. 不一定要100%准确,可以从辅助诊断及治疗起步;

2. 不要从三甲医院开始,基层医院最有价值。

Eric Xing人工智能系统的作用和医生的能力应该结合使用,而不是排他。它更大的期待是降低成本、提高效率,然后在医生的把关下达到或超过医生的精度。人工智能的强处在于消化大数据和结合多元的诊断治疗计划,就像把几个医生集中在一起做综合诊断。

【苏中】同意。自然语言理解和语义网技术很重要,还有个性化。个性化有很多方面,例如病人的过敏史、当前用药情况等。机器辅助医生在这方面会很有效。

Eric Xing大家都在说个性化,但是我很少看到有严格统计意义的个性化方法,现在的水平还非常原始;公众关注度很高,但是技术水平和储备还没有跟上。感觉现在过多的讨论是集中在愿景上,而不是方法论和评测。

【雷鸣】其实像美国,医疗资源还比较丰富;但是像中国,医疗资源很匮乏。如果能够利用智能诊断,大幅度提升诊断效率和正确率,将有很大的社会意义。中国的三甲医院医生还不错,但大部分医生都到不了这个水平。

【吴文辉】人工智能的应用路径很重要,建议大家多看看中国县级医院的情况。

【苏中】在中国,医生少是个大问题。利用医疗数据分析,辅助边远地区医生的医疗诊断,在中国或许会有很大市场。

【王俊】这不是三甲的问题,是医生水平是不是不如指南、达到指南、还是超越指南。

Eric Xing在中国,数据驱动的基于机器学习的诊断和治疗辅助系统有很大市场和需求,理想情况下应该是系统做初筛和推荐,医生做最后把关,开出方案。这里面最大的难点是数据特征的抽取、数据的规范化和后端建立和训练模型。数据的收集和整合如果能考虑到跟何种机器学习模型和算法的对接,会事半功倍。

 

话题五:智能医疗的创业前景