系列 2：作为医生，怎么跟进人工智能不落伍？写给医生的人工智能体验课

人工智能人才报告：百万年薪巨头争抢，500万人才缺口，高考志愿新宠；

病理诊断大比拼，人类竟被人工智能打败了？

生命科学与医学研究已进入“大数据时代”；

大数据技术下的真实世界研究——搬走“三座大山”，落地临床科研

…………

近几年越来越多真实世界研究、大数据、人工智能的新闻出现在我们视野。正所谓隔行如隔山，医生们可能已经感受到世界在发生巨大的变化，可是却如雾里看花般看不清，说不明。我们也知道大数据、人工智能是未来的趋势，可是落实到个人，我们该如何把握？该怎么结合临床研究，在医疗领域发挥作用？我抱着分享的心态，写下系列文章，有个人观点、有基础概念，也有实操的代码和数据。希望能对刚刚起步，对人工智能有兴趣的各位医生同道有帮助。

真实世界研究

所谓真实世界研究（real world study，RWS），指在真实的临床、社区或家庭环境下获取的多种数据，从而评价某种治疗措施对患者健康真实影响的研究。不明情况的人一听这么高大上的名词，还以为出现了一种什么新的研究方法，但其实更多强调的是一种理念。它和传统的病例对照研究、队列研究在研究设计和统计处理上方法是相通的。

与RWS有明显区别的是随机对照研究（Randomized Controlled Trial，RCT），RCT和RWS的区别已经有很多文章做过讨论了，概括起来就是前者要求严格标准化的试验环境、证据级别高，但结论不一定适合所有患者；后者的研究对象更广泛、数据量更大，可能有更强的推广性。两者更多的是互补，而不是对立，这对于医药企业来说体会更深。

药企研发新药目的是上市盈利，为了获得国家部门的审批，上市前的临床研究用RCT的方法是最好的甚至是唯一的方法，这是国家政策所致的。当药物成功上市了，为了进一步证明药物的有效性、安全性等，那么就要纳入更多的患者进行研究。这阶段的研究患者数量更多、场景更广泛、数据更多样，那么采用RWS的方法就更合适了。

那为什么这个词偏偏近几年才火起来呢？我认为这和大数据技术的发展息息相关。

大数据

大数据的范围很大，这里仅仅提供临床医生的视角。我硕士那会读的是专硕，三年都要轮科，不进实验室，加上自己比较懒，根本没学什么科研的知识，到了要写文章的时候就犯了愁。做个好一点的随机对照吧，没人力物力，一个人做不过来，于是我就把目光放在了回顾性病例对照研究。

然而当我开始做的时候才发现事情并不简单，我打开慢如蜗牛一般的病例系统，把一个患者的病例资料录完最快也要半小时。这意味着我录入500例患者信息需要250个小时，如果我每天晚上下班就花3小时专干这事，每天不休息不间断地也起码要花83天的时间！这仅仅是数据收集的时间！

相信这也是很多临床医生遇到的问题。医生临床工作繁忙，我们更希望能在日常的诊疗工作中就把数据自动采集好，日后要写文章的时候只需要简单的搜索就有整理好的数据出来了。随着近年来大数据技术的发展，越来越多的医院、科室开始建立起这样面向临床研究的大数据平台，尤其是以肾内科、肿瘤科这种注重慢病管理的科室居多。当一个科室具备这样的系统，在采集数据方面时，其效率、规模、准确性都比传统录入提升几个档次，文章的产出效率自然也能提升。

那么是不是科室建立起一个这样的平台，数据就会迅速提供你所需要的数据呢？答案是否定的。数据平台接入医院各个系统后，对于一些常见的结构化数据，例如血常规、生化指标、性别、体重等都是很容易提取的，但对于用药的起始时间、用药频率、机械通气模式等在病程体现的指标则需要事先做结构化处理才容易提取。

或许你会说，那我把系统里所有的指标都结构化，写病历病程变成像填表一样不就行了么。一味要求功能大而全，那就意味着每样都不精。不同科室、不同研究所需要分析的具体指标是不同的，我们甚至需要翻阅大量的文献才知道该收集什么指标。

严谨的做法应该是临床医生应与流行病学专家密切合作，临床医生提出研究问题，流行病学专家转化为研究方案，商讨应该收集哪些数据，最后才做数据分析，撰写文章。数据系统是一个工具，它的强大与否取决于它的使用者。

国内不少大医院已经建立起医生——流行病学专家——大数据平台这样的临床研究一体化平台，但这需要大量的人力和财力。一个基于科室的中小型数据系统需要数十万的费用，一个面向多中心的大数据平台可能会达到千万元级别。大医院能调动更多的资源和数据，就有更多的科研成果；中小医院资源有限，靠传统的方式做临床研究，自然产出低。

目前国内有很多这样的中型医院科室面临这样的困境：临床技术水平上去了，但是科研水平没有达到同样的增幅。要打破这样的困境，科室把科研重点放在临床研究、真实世界研究是很好的选择。相对于实验室的基础研究，资源和人力投入较少，产出较快，临床与科研两不误。

科室需要做的就是投入一定的资源，培养具备流行病学研究能力的医生，建立中小型的数据平台，把临床研究的思维融入到日常诊疗工作中。有科研产出，自然能争取更多的资源，这是一个良性循环。如果科室不愿意投入资源，片面强调医生个人努力，那显然不符合客观发展规律。

人工智能

前面的内容就是为了说明一个观点：谁拥有更多的数据，谁就有更多的科研产出。最后要说的是人工智能，它把研究对象从一些二维的表格数据扩展到了图像、文本语言等。

人工智能也是建立在大数据的基础上，所以目前国内知名的医学人工智能研究都来自一些高端玩家——大型三甲教学医院。这是因为医院的医生精通人工智能技术吗？并不是。这是因为这些大医院能获取行业内的大数据，再走医工结合的路线，和专业的算法团队合作，利用现有的成熟的深度学习模型，产出成果。人工智能领域有这么一句经典的话：数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。也就是说，高质量的大数据才是成败的关键。

那是不是小医院或者小医生接触不到这些大数据就没戏呢？我曾经在一次会议上向一位相关医学专家提问，对方直言不讳：医学人工智能相关的研究被大医院早早占领了，后来者只能吃些残羹冷炙了。

诚然，后来者有很多劣势，但并不代表没有发展的可能，传统的研究也是一样的，做总比不做好。百万级别的CT图像有百万级别的建模方法，几千张图片也有几千张的做法。很多医院并没有利用好这些医学影像资源，也不知道怎么利用。我们做好自身定位，寻找好的切入点，把已有的资源利用好，产出成果，也是一种成功。掌握多一种研究方法，会有更广阔的视野和切入点。

我之前曾经写过一篇文章（可查看医咖会既往发布：从一名医生的角度谈谈对人工智能的理解），粗浅介绍了人工智能、机器学习、深度学习的概念。相信大家听到这些高大上的名词时会多少有点敬而远之的感觉，我们临床医学专业并不怎么学数学，要系统学习其中的数学知识、算法编程很难。

同样的，工科专业的人要深入了解医学的需求也有困难。记得我几年前第一次和搞深度学习算法的朋友聊合作的时候，那些名词听得我一愣一愣的。什么“标签”、“特征工程”、“类别不平衡”都是什么玩意？深入了解后，这不就是结局变量、筛选变量、阳性病例数太少的意思吗？传统的医学统计和深度学习算法的确有很大的不同，但也有相通的地方。当我展示一些医学图片给朋友，沟通建模需求时，他竟然怂了，“让我缓一缓，我觉得这些图片有点恶心……”

人工智能的范围很大，这次的系列文章主要集中在计算机视觉识别这个方向。这方面的内容深奥且繁杂，系统学习需要很长的时间，因为面向的是临床医生/医学生群体，所以对数学原理、算法代码只做简单讲解，只做一个简单的体验。大家不必太深究里面的原理，跟着代码过一遍，粗略感受一下自己建模的快感就好，如果能激起你们继续深入研究的兴趣，那就善莫大焉。

本文荟萃自医咖会李健民医师，只做学术交流学习使用，不做为临床指导，本文观点不代表数字重症立场。