人工智能如何学习来当医生?Airdoc公司算法工程师陈飞告诉记者,人工智能的发展,以2012年作为一个分水岭。在此之前,人工智能的算法还属于浅层学习,计算机根据人类设计的特征去进行学习。“例如让计算机识别摩托车,人类工程师会告诉它摩托车的特征,例如有两个轮子、有车把、有个发动机,这种学习受人的预设和先验经验限制。对于复杂的医学领域来说,影像之间相似、病灶也相似,浅层学习在这一领域的应用准确度就比较差。”
2012年是人工智能里程碑的节点,这一年深度学习技术爆发。和浅层学习的区别是,深度学习的算法模拟人脑的神经元结构,构建一个神经网络,不预设条件,输入大量的数据让计算机自己去学习特征,随着数据量样本的增大,计算精度会越来越高。
人工智能的核心是算法和数据。尤其是需要海量的数据。就好比一个每天都在不断学习吸收新信息的医生,和一个经常睡大觉不用功的医生相比,数据量的大小,直接决定了“医生”水平的高低。而算法工程师好比去西天取经的唐僧,需要在医生帮助下把梵文的经书(医学知识和医生的经验)转化成常人的语言(处理后的数据和算法规则),让计算机去学习。
不过,陈飞认为,目前只是初级的人工智能阶段,电影上经常出现的强人工智能离现实还很远。即便是世界上最好的人工智能深度学习网络,拥有10亿级别的神经元,但相对人类大脑神经元的数量来说仍远远不及。而且这种模拟神经元,还无法模拟人脑神经元之间复杂的化学反应。此外,医学是复杂的学科,对病人来说,面对面接触、语言安慰等人文关怀都是有助治疗的因素,“机器是冰冷的,人是活的。”因此,人工智能取代医生不太现实。辅助医生提高效率,减轻医生负担,让医生空出手来做更好的治疗,是人工智能目前努力的方向。
“数据污染”阻碍人工智能发展
人工智能的学习需要好的教材。优质的数据成为关键。在这一点上,丁香园创始人、董事长李天天认为,中国过去30年实行的“以药养医”政策,带来一个非常严重的问题,就是“数据污染”。“任何人工智能技术,都是要靠一批高质量的数据来训练的。但 以药养医 的政策,导致过度治疗、过度检查。这种情况,造成临床数据尤其是治疗数据的污染。”
李天天举例说,比如一个4岁的小朋友,得了单纯的感冒,但他的用药处方中出现了最新一代的头孢,甚至出现一些营养品。“这个数据污染,给我们做人工智能训练,带来一个几乎不可完成的任务。技术人员无法从中看出这些 猫腻 来。”
基于“数据污染”的现状,李天天认为,人工智能在医疗方面的进展,一是诊断比治疗会走得好。诊断数据受到污染的情况少得多;第二,图片比文字好诊断。文本识别是人工智能非常大的挑战,因为很多自然语言不是计算机能够区别1和0那么容易;第三是垂直比综合好做。“现在世界上有两种阵营,像我们熟悉的阿尔法狗,它就是窄的垂直的,它只会下围棋,不会开车。但Deepmind用一个大数据去训练一个人,像训练孩子一样,它什么都知道,但做大是很难。”
也正是基于这样的判断,丁香园选择了在皮肤科领域发展人工智能。今年5月19日,丁香园、中南大学湘雅二医院和大拿科技共同宣布,就皮肤病人工智能辅助诊断达成独家战略合作,并发布由三方联合开发的“皮肤病人工智能辅助诊断系统”。这一套系统通过医院方提供的3万多张皮肤病图片和病例图片学习,第一期主要实现以红斑狼疮为代表的皮肤病人工智能辅助诊断,识别准确率超过85%。未来还会在皮肤科其他领域开展研究,比如像黑色素瘤等高发的皮肤肿瘤。
人工智能辅助诊断系统,会否有一天可以去掉“辅助”二字,取代医生?医生出身的李天天认为,即便是未来十年二十年,也很难。医学永远充满不确定性。患者不能依靠概率来判断,这种不确定性必须要结合医生的经验来做。所以“辅助”这两字必须要保留。