机器疗愈:专家表示,人工智能已经准备好迎接减轻人类痛苦的挑战。我们准备好了吗?
在人工智能浪潮下,医学正悄然重塑。AI不会取代医生,却有望释放他们的人性与智慧。从辅助诊断到减负文书,一场“机器疗愈”的革命已在诊室静静展开。
作者:Alvin Powell,哈佛公报撰稿人 日期:2025年3月20日
2000年代,亚当·罗德曼(Adam Rodman)还只是个医学院二年级的学生。有一次,面对一位令医生束手无策的病人,他跑去图书馆查阅资料。他搜索目录、复印研究论文,然后把结果分享给团队。
“这些资料对那位病人的治疗起到了很大作用,”罗德曼说,“大家都说:‘太棒了!这才是循证医学。’但这整个过程花了我两个小时。而现在,我只需要15秒。”
如今,罗德曼是哈佛医学院的助理教授,也是贝斯以色列女执事医疗中心的医生。他现在随身携带的“医学图书馆”不再是纸本资料,而是一个智能手机应用程序。这款App是在2022年ChatGPT等大型语言模型推出后开发的,名为OpenEvidence——部分由哈佛医学院的教师参与设计。它可以根据具体疾病和症状进行提问,搜索医学文献,自动生成摘要,还会列出最重要的来源供进一步阅读。而这一切,都能在罗德曼仍在与病人面对面交流时完成。
“我们会说,‘哇,这项技术真强大。’但问题是,我们如何真正利用它带来改变?”
——亚当·罗德曼
事实上,人工智能以各种形式在医学中已经使用了几十年——但从未像现在这样。专家预测,大型语言模型的应用将彻底重塑医疗行业。有人将其影响比作人类基因组的破译,甚至比作互联网的兴起。
这些变化预计将体现在医生与病人的互动、医生的文书负担、医院和医生的运营管理、医学研究以及医学教育等多个方面。
大多数影响可能是积极的,比如提升效率、减少错误、缓解全国初级保健医生短缺问题、让数据更好地参与决策、减轻行政负担,并为医生与患者之间更深入、更长时间的交流创造空间。
但与此同时,也存在一些严重的担忧。
目前用于训练AI的数据集,往往反映了社会中的偏见,这些偏见可能加剧弱势群体在医疗可及性和医疗质量方面的差距。如果不加以纠正,这些偏见就可能被“固化”进越来越强大的AI系统中,而这些系统未来将越来越深地影响整个医疗行业的运作方式。
专家指出,另一个重要问题是:人工智能仍然容易“幻觉”,也就是说,它可能编造出虚假的“事实”,却呈现得像是真的一样。
还有一个潜在的风险是:医疗界可能不够大胆。最新一代AI有可能彻底改造整个医疗体系——从上到下——但前提是我们愿意给它机会。如果优先级搞错,比如对既得利益过于迁就、过分追逐经济利益而忽视健康本身,那么这场AI“革命”可能最终不过是对边角问题的小修小补,令人失望。
“我觉得我们正处在一个很奇怪的阶段,”罗德曼说,“我们一边说‘哇,这项技术真强大’,但我们到底怎么用它来真正改变现状?作为一名临床医生和研究者,我担心的是:如果我们不敢放开思路,不重新思考医疗体系的组织方式,事情也许不会有太大变化。”
修补“岌岌可危的大厦”
五年前,当被问到AI在医疗中的应用时,艾萨克·科汉(Isaac Kohane)表达了强烈的不满。他说,当时连青少年在社交媒体App上敲字的能力都比很多医生用技术的水平高。而如今,他说,情况已经截然不同。
科汉是哈佛医学院生物医学信息学系主任,同时也是《新英格兰医学杂志》新成立的AI项目总编辑。他形容最新一代语言模型的能力为“令人震惊”。为了说明这一点,他回忆了自己最早接触OpenAI的GPT-4时的经历。他用一个复杂案例来测试它——一个出生时性别不明的婴儿,这样的病例甚至可能难倒经验丰富的内分泌科专家。科汉向GPT-4提问,包括遗传原因、生化通路、下一步检查方案,甚至如何与患儿父母沟通。GPT-4的回答堪称满分。
“这个大型语言模型并不是被训练来当医生的;它的训练目标只是预测下一个词而已,”科汉说,“它既能流畅地讨论素食菜单与葡萄酒的搭配,也能诊断复杂病例。这确实是一次质的飞跃,远超任何一位诚实的计算机科学家对未来十年可能发生的预期。”
来得正是时候。美国医疗体系长期以来一直被批评为昂贵、低效,而且过于专注治疗而忽视预防,而现在,这一体系已出现明显裂痕。科汉回忆说,系里一位新来的教职员工竟然找不到全科医生,他对这些问题早已见怪不怪、心力交瘁。
“我早就说过,医疗体系是坏的,但在波士顿,它坏得非常明显,”他说。“人们担心AI会带来公平性问题。可我要说的是,我们今天的公平性问题已经严重到不能再等了。除非你人脉广、肯多花几千美元买‘管家式服务’,否则你很难及时约到初级保健医生。”
科汉指出,最初人们担心AI会取代医生,但现在大家逐渐意识到,这个系统其实既需要AI,也需要人类医疗人员。他认为,将AI与执业护士和医生助理协作,是一种颇具前景的方案。
“如今我们讨论的焦点,已不再是‘AI会不会取代医生’,而是‘AI能否与那些看起来不再像传统医生的临床团队一起,撑起那座岌岌可危的医学大厦?’”
构建“最理想的助手”
科汉表示,大型语言模型(LLMs)之所以迅速被广泛应用,一个关键原因是它们是一开始就向所有人开放的。这让医生们立即开始在一些“令人头疼但又必须完成”的任务中试验,比如给保险公司写“预授权申请信”,说明某种(通常很贵的)治疗为何是必须的。
“大家就是直接用了,”科汉说。“医生们在X平台上发帖交流自己节省了多少时间。”
病人也开始使用AI寻求“虚拟第二诊疗意见”。比如一个广为报道的案例:一名患儿反复疼痛,三年来看了17位医生都未确诊。后来孩子的母亲把他的病例笔记输入ChatGPT,AI建议可能是“脊髓栓系综合征”——一种脊髓被困于脊柱内的疾病。活动时,脊髓无法顺畅滑动而被牵拉,从而引发疼痛。这一诊断随后由神经外科医生确认,并进行了纠正手术。
当然,在临床中使用AI的主要目标之一,是让医生在第一次就做得更好。通过更快、更广泛获取病例信息、诊断建议等数据,医生的诊疗质量有望显著提升。但根据最近的一项研究,要实现这一目标仍有很多工作要做。
这项发表于《JAMA Network Open》的研究将三种情况的诊断准确性进行了对比:单独的医生、使用大型语言模型(LLM)辅助的医生,以及LLM单独使用。结果令人意外:使用LLM的医生准确率只有76%,与单独医生的74%差异并不显著。而令人更惊讶的是,单独使用LLM的诊断准确率最高,比单独医生高出整整16个百分点。
作为这篇论文的资深作者之一,罗德曼指出,这不应被解读为“LLM对医生没什么帮助”。他强调,研究的深层结果更值得关注。研究进行于2023年,当时只有约10%的医生有使用LLM的经验,其余人仅接受了基础培训。因此,后来罗德曼分析对话记录时发现,多数医生只是把LLM当作查资料工具,而没有真正用来思考或决策。
“医生现在最好的使用方式是把AI当作‘第二意见’的来源,尤其是在面对棘手病例时质疑自己,”他说,“我错在哪里?我是不是漏掉了什么?我还应该问哪些问题?这些都是心理学研究中明确指出的、可以和人类思维互补的方式。”
AI还有望让医疗更安全。 麻省总医院-布莱根妇女医院AI与生物信息学习系统中心联合主任、大卫·贝茨(David Bates)认为,这是另一个重大潜力。贝茨团队的研究显示,在马萨诸塞州的医院中,多达四分之一的就诊会造成某种形式的病人伤害,其中很多都与用药错误有关。
“AI在识别药物相关问题方面的准确率,应该远远优于我们现在的水平,”
——大卫·贝茨,哈佛医学院医学教授、哈佛陈曾熙公共卫生学院健康政策与管理教授。
另一个重要的机遇来自AI在一项“平凡”任务上的不断进步:笔记记录和总结归纳,这是哈佛医学院医学教育院长伯纳德·张(Bernard Chang)指出的。
未来不久,所谓的**“环境记录(ambient documentation)系统”**将能够在医生与病人的对话中“旁听”全过程,实时记录所有交流与操作,并自动生成结构清晰的临床笔记。当患者陈述症状时,AI还能同步提供可能的诊断和治疗方案。之后,医生只需审核这些摘要是否准确。
张表示,自动化笔记和总结功能将从多个方面改善医疗工作者的处境:
减轻文书负担 —— 医生写病例记录和报告的工作,常被认为是导致职业倦怠的主要原因之一;
重塑医患关系 —— 过去患者常常抱怨医生“对着电脑问问题”,而不是与他们面对面交流。如果医生不再需要低头做记录,而是能全神贯注与患者对话,将更有利于建立信任、加深理解。
“这可能不是最‘神奇’的AI用途,”张说,“我们都见过AI的某些表现令人惊艳。但这个功能不是那种会让你惊呼‘哇!太牛了’的应用。然而,这类系统目前已经在美国多个门诊实践中试点,而且初步反馈非常积极。那些原本感到精疲力尽的医生开始说:‘你知道吗,这个工具真能帮我。’”
偏见的威胁
尽管大型语言模型(LLMs)功能强大,但它们尚未准备好“单独上岗”。
“这项技术还不够成熟,还没安全到可以完全不依赖有经验的医生。”哈佛医学院助理教授、贝斯以色列女执事医疗中心医生亚当·罗德曼(Adam Rodman)表示,“我能看出模型在哪一步可能出了错,我能在诊断上进一步推进,那是因为我曾经跌过跤。住院医生培训期间,我们会犯很多错误,但也正是在这些错误中成长。我们当前的医学训练体系虽然效率极低,但确实锻炼了思维能力。”
“现在,如果医学生直接使用AI工具来‘自动化’那些需要动脑的过程——即使AI平均表现优于人类——他们还怎么学习?”
——Adam Rodman
医生和科学家们还担忧另一个问题:错误信息和数据偏见。
哈佛医学院医学副教授、贝斯以色列女执事医疗中心肺病、重症与睡眠医学科的医生李欧·塞利(Leo Celi)指出,医学数据长期存在系统性偏差,这与现代生物医学起源于富裕的西方国家密切相关。这些国家的科学基础往往是由白人男性研究白人男性建立起来的。
因此,训练AI所用的数据天然就带有对特定群体的盲点与歧视,比如对少数族裔、女性、低收入群体等。在不加修正的前提下,这些偏差可能会被AI程序“放大继承”,并逐渐固化为“医学决策逻辑”的一部分,最终让原本就不公平的医疗系统变得更加不公。
这也是为什么许多专家强调:AI不能代替医生,也绝不能忽视其背后的数据来源与结构性偏见问题。
“在构建人工智能之前,你必须先理解数据,”Celi说,“这让我们以全新视角反思:现有医疗体系和医学教育体系的设计缺陷。我们早就知道这个系统有问题,但现在更清楚地看到,现状之糟糕,已经到了‘我们默认它是坏的’的地步。如果我们不去重写现实世界的底层结构,AI的所有承诺都将破产。”
Celi 举了一个例子:讲英语和不讲英语的糖尿病住院患者在护理质量上存在明显差异。研究发现,不讲英语的患者被叫醒测血糖的频率更低,这就增加了病情变化被忽略的风险。但问题在于,这种影响在数据中并不容易显现,因为表面上看不到“偏见”,但实际上是数据不完整,从而隐性地造成了医疗不平等。
“母语非英语的人可能只测了一两次血糖,而英语好的病人测了十
次,”他说,“你把它平均一下,计算机不会觉得有不平衡。很多重要的上下文信息缺失了,哪怕是专家也未必能察觉这些‘数据伪象’(data artifacts)。而这些伪象正是数据生成过程中,社会结构影响的产物。”
医疗偏见远不止语言问题。
Bates补充了一些例子:
有的皮肤癌检测设备在深色皮肤上的表现很差,容易漏诊;
某个预约算法错误预测黑人患者更可能爽约,结果导致黑人群体被系统性地“超额预约”,实际却面对更长等待时间。
Celi总结道:
“大多数临床医生并不知道,我们使用的每一个医疗设备,都带有某种程度的偏见。
这些设备通常是基于‘白人、大学年龄、男性’的样本设计和优化的,它们根本不是为80岁、有多种慢性病的重症监护病人准备的。那我们怎么能指望它们代表‘客观真理’呢?”
但Celi也指出,揭示出传统医疗系统的深层偏见,恰恰是一个机会,可以推动更公平、更科学的重建。
例如:
越来越多的研究者正推动在临床试验中纳入多元人群,并拓展数据来源地理覆盖;
贝斯以色列医院开发的 MIMIC数据库 就是一个典型案例。这个数据库涵盖医院多样化的患者人群,由Celi负责管理,它向全球研究人员开放匿名电子病历数据(包括笔记、影像、检验结果等),目前已被用于超过 1万项研究,并计划扩展到 14家医院。
敏捷时代
正如临床中使用的AI模型并非完美无缺,实验室中应用的AI模型也存在不足,但它们正在开辟一条极具前景的道路,有望大幅加速科学进展。
哈佛医学院生物医学信息学副教授马琳卡·齐特尼克(Marinka Zitnik)表示:
“这些模型能即时提供分子级的洞见,尤其是针对一些实验上尚无法获得,或需要极大时间和精力才能完成的分子信息。
它们给出的计算机内预测(in-silico predictions)非常准确,科学家们可以基于这些预测,进一步开展和利用科研工作。对我来说,这预示着我们正处在一个令人难以置信的历史时刻。”
齐特尼克补充道:
“现在越来越重要的是开发可靠且可信的基准测试或技术,来评估AI模型的输出在现实世界中的表现。”
齐特尼克的实验室最近推出了Procyon,一款旨在填补蛋白质结构及其生物学功能知识空白的AI模型。
长期以来,科学家们难以准确理解蛋白质的三维形状——这些长链分子如何折叠和扭曲成特定结构。这一形状非常关键,因为分子表面的弯曲暴露出部分区域,同时掩盖其他部分,这影响着其他分子与之相互作用的难易程度,进而影响蛋白质的化学性质和功能。
齐特尼克表示,如今,从已知的氨基酸序列预测蛋白质的三维形状——甚至精确到几乎每个原子——已经成为可能。但主要挑战在于,如何将这些结构与其在不同生物环境和疾病中的功能及表现型联系起来。目前约有20%的人类蛋白质功能尚不明确,而绝大多数研究——高达95%——集中在大约5,000种被深入研究的蛋白质上。
“我们正在努力弥补这一空白,通过将分子序列和结构与功能注释相连接,预测蛋白质的表现型,帮助推动该领域向能够在计算机中预测每种蛋白功能的方向迈进。”
实验室中AI的长期目标之一,是开发“AI科学家”——作为科研助理的智能系统,能够访问全部科学文献,整合实验结果,并建议下一步研究方向。齐特尼克表示,这些系统未来可发展为真正的科研合作者,目前已有模型能生成简单的假设。
她的实验室利用Procyon模型成功识别了麦芽糖葡萄糖淀粉酶蛋白中能结合治疗2型糖尿病药物米格列醇的结构域;另一个项目则展示了Procyon对涉及帕金森病的功能不明蛋白进行了功能注释。这些强大功能的实现,得益于模型训练时使用了海量实验数据和全量科学文献,这远远超出了人类能阅读和分析的范围。
课堂教学在实验室研究之前。AI所体现出的灵活性、创新和持续学习的特质,也正在被应用于医学教育。哈佛医学院推出了关于AI与医疗的课程,增设了医学AI博士方向,计划开发“辅导机器人”提供课外辅助材料,并打造虚拟病人平台,让学生在首次与真实患者接触前进行练习。同时,罗德曼领导一个关于生成式AI在医学教育中应用的指导小组。
这些举措是良好的开端,但罗德曼认为,AI技术的快速发展也带来了挑战——很难完全准备好学生去面对将长达30年的职业生涯。
“哈佛的观点,也是我个人的看法,是我们能传授基础知识,但更重要的是培养灵活应变的能力,准备好迎接一个快速变化的未来,”罗德曼说,“我们能做的最好的一件事,可能就是教会人们预期不可预期。”
原文链接:
https://news.harvard.edu/gazette/story/2025/03/how-ai-is-transforming-medicine-healthcare/


