新物网

当前位置:首页 > 科技

科技

谷歌AI通过图灵测试,大模医生来了? GPT-4居然诊断出一种奇怪的疾病,难倒了17名医生

时间:2024-01-15 12:12:15
谷歌团队发布的全新诊断对话式AI在测试中击败医生,通过了图灵测试,再次引领医疗AI的革命。如今,谷歌研究团队推出全新的医学对话AI——AMIE,竟通过了「图灵测试」!谷歌AI医生通过图灵测试,诊断对话AI里程碑

谷歌AI通过图灵测试,大模医生来了? GPT-4居然诊断出一种奇怪的疾病,难倒了17名医生

AI在医疗领域再次大放异彩! 谷歌团队发布的全新诊断对话式AI在测试中击败了医生,通过了图灵测试,再次引领了医疗AI的革命。

我们需要开发对人类有益的 AGI 的原因之一:

我妻子的身体经历了五年的各种病痛,最终被诊断出患有一种叫做过度活动综合症的遗传病。 目前的医疗系统分为不同科室,遗传病hEDS影响人体各个系统和器官。 大多数医生只关注与自己专业相关的症状,很难做出整体诊断。

联创格雷格的话指出,当前先进的AI系统需要不断进化,有望解决人类的医疗问题。

这足以改变游戏规则。 众所周知,医患对话是医学的基石。

现在的大医疗模式已经有了长足的进步,以同理心回应患者情绪、总结医学总结、根据临床病史鉴别诊断等等。

然而,开发一个既具有临床医生专业知识又具有强大对话诊断能力的人工智能是一个巨大的挑战。

今天,谷歌研究团队推出了新的医学对话AI-AMIE,居然通过了“图灵测试”!

论文地址:

具体来说,AMIE采用强化学习算法中的“自我博弈”方法,可以在模拟环境中与自身进行博弈,并通过自动反馈机制,可以在各种疾病、医学专业和环境中扩展学习。

在对患者的双盲文本测试中,AMIE 直接击败了医生,并且在诊断呼吸系统疾病和心血管疾病等疾病方面比初级保健医生 (PCP) 更准确。

与此同时,AMIE也表现出了一贯的同理心。

论文指出,尽管在 AMIE 应用于临床应用之前还需要进一步研究,但它代表了对话式诊断人工智能的一个里程碑。

这表明谷歌的最新研究暗示了人工智能驱动的诊断对话的未来。 在不久的将来,格雷格提到的AGI将会到来。

01 谷歌AI医生通过图灵测试,诊断对话式AI里程碑

除了开发和优化用于诊断对话的人工智能系统之外,还存在如何评估此类系统的难题。

受到用于衡量咨询质量和临床沟通技巧的现实工具的启发,研究人员根据病史采集、诊断准确性、临床管理、临床沟通技巧、关系发展和同理心等标准构建了一个试点评估标准。 评估诊断对话的过程。

然后,研究人员设计了一项随机、双盲交叉研究,其中经过验证的患者通过文字聊天与经过认证的初级保健医生(PCP)或针对诊断对话进行优化的人工智能系统进行互动。

研究人员以客观结构化临床检查(OSCE)的形式设置咨询场景。

OSCE是现实世界中常用的一种实用评估方法,以标准化、客观的方式检验临床医生的技能和能力。

在典型的 OSCE 考试中,临床医生可能会轮换多个工作场景,每个场景都模拟真实的临床场景。

例如与标准化患者演员(经过严格培训以模拟患有特定疾病的患者)进行咨询。

咨询是通过同步文本聊天工具进行的,模仿当今大多数使用法学硕士的消费者所熟悉的界面。

02 AMIE:基于LLM的对话式诊断研究AI系统

研究人员在现实世界的数据集上对 AMIE 进行了训练,包括医学推理、医学总结和现实世界的临床对话。

使用通过被动收集和记录个人临床就诊而开发的真实对话来培训法学硕士是可行的,但是,有两个重大挑战限制了其在培训医学对话法学硕士方面的有效性。

首先,现有的现实世界数据往往无法捕捉大量的医疗状况和场景,这阻碍了数据的可扩展性和全面性。

其次,从现实世界的对话录音中获得的数据通常是嘈杂的,包含模棱两可的语言(包括俚语、行话、幽默和讽刺)、中断、不合语法的陈述和不明确的引用。

为了解决这些限制,研究人员设计了一个基于自我游戏的模拟学习环境,具有自动反馈机制,用于虚拟医疗环境中的诊断医疗对话,使研究人员能够跨多种医疗条件和环境进行扩展。 AMIE 的知识和能力。

除了所描述的现实世界数据的静态语料库之外,研究人员还利用该环境通过一组不断变化的模拟对话来迭代微调 AMIE。

这个过程涉及到两个自循环:

(1) 一个“内部”自我播放循环,其中 AMIE 使用上下文中批评者的反馈来改进其在与 AI 患者模拟器的模拟对话中的行为;

(2)“外部”自播放循环,即将整套模拟对话纳入后续的微调迭代中。

由此产生的新版本AMIE可以再次参与内循环,形成良性的持续学习循环。

此外,研究人员还采用了时间链推理策略,使AMIE能够根据当前对话逐步改进其答案,从而得出有根据的答案。

研究人员使用上述随机化方法来测试模拟患者(由专业演员扮演)的表现,并将其与 20 名真实初级保健医生的表现进行比较。

研究人员在一项随机、双盲交叉研究中从专科主治医生和模拟患者的角度评估了 AMIE 和初级保健医生,该研究包括来自加拿大、英国和印度 OSCE 提供者的 149 个病例场景。 涵盖多种专业和疾病。 值得注意的是,研究人员的研究并非旨在模仿传统的面对面欧安组织评估,也不是临床医生通常使用的文本、电子邮件、聊天或远程医疗方式。

相反,研究人员的实验反映了当今消费者与法学硕士互动的最常见方式,这是人工智能系统参与远程诊断对话的一种潜在可扩展且熟悉的机制。

AMIE打败了医生

在这种情况下,研究人员观察到 AMIE 在模拟诊断对话中的表现至少与初级保健医生一样好。

从专家的角度来看,AMIE 的诊断更加准确,在 32 项指标中的 28 项上表现更好,从患者的角度来看,AMIE 在 26 项指标中的 24 项上表现更好。 。

在研究人员设定的每项评估指标上,AMIE 的表现均优于初级保健医生。

专家评定的Top-k诊断准确率。 AMIE 和初级保健医生在 149 种情况下与真实诊断 (a) 和公认的鉴别诊断 (b) 中列出的所有诊断相比的 top-k 鉴别诊断 (DDx) 准确性。 (n=10,000) 证实,在校正错误诊断率 (FDR) p 后,AMIE 和 PCP DDx 准确度之间的所有前 k 个差异均显着

专家评估的诊断对话和推理质量:AMIE 在 32 项指标中的 28 项上优于初级保健医生,而在其他指标上表现相当。

AMIE 作为临床医生助理的潜力

在最近发布的预发表论文中,研究人员评估了 AMIE 系统早期迭代单独生成 DDx 或作为临床医生辅助工具的能力。

20 位全科医生评估了新英格兰医学杂志 (NEJM) 临床病理学会议 (CPC) 上的 303 个具有挑战性的现实医疗案例。

每个病例报告均由两名临床医生进行评估,他们被随机分配至两种辅助治疗方式之一:

1)搜索引擎和标准医疗资源辅助,

2) 这些工具之外的 AMIE 帮助。

所有临床医生在使用相应辅助设备之前均提供了无辅助基线 DDx。

AMIE 的独立表现超过了无协助的临床医生(前 10 名的准确率为 59.1%,而医生的准确率为 33.6%,P = 0.04)。

比较两种辅助研究模式,没有 AMIE 辅助的临床医生(24.6%,p

此外,接受 AMIE 援助的临床医生比没有获得 AMIE 援助的临床医生制定了更全面的差异列表。

值得注意的是,NEJM CPC 并不代表日常临床实践。 它们是仅涉及数百人的罕见病例报告,为探讨公平或正义的重要问题提供了有限的空间。

大胆而负责任的医疗保健研究——可能性的艺术

在世界各地,获得临床专业知识的机会仍然很少。

虽然人工智能在特定的临床应用中显示出巨大的前景,但在临床实践中参与动态的对话式诊断过程需要许多人工智能系统尚未展示的能力。

医生不仅要获得知识和技能,还要遵守安全和质量、沟通、伙伴关系和团队合作、信任和专业精神等原则。

在人工智能系统中实现这些品质是一项鼓舞人心的挑战,研究人员应该负责任地谨慎对待。

AMIE 是研究人员对“可能性的艺术”的探索,这是一个基于研究的系统,用于安全地探索未来的愿景,其中人工智能系统可以更好地与委托提供护理的护理研究人员保持一致。 所服务的熟练临床医生的属性是一致的。

这是早期的实验工作,而不是产品,并且有一些局限性,研究人员认为值得进行严格和广泛的进一步科学研究,以展望未来,对话式、同理心和诊断式人工智能系统可以变得安全、有用和易于使用。

局限性

研究人员的研究有一些局限性,应谨慎解释。

首先,研究人员的评估技术可能低估了现实世界中人类对话的价值,因为研究人员研究中的临床医生仅限于使用不熟悉的文本聊天界面,该界面允许大规模的 LLM 患者互动,但不能代表通常情况。临床实践。

其次,任何此类研究都必须被视为漫长旅程中探索性的第一步。 需要进行大量的额外研究,才能从研究人员在本研究中评估的法学硕士研究原型转变为可供人们和护理人员使用的安全、强大的工具。

有许多重要的限制需要解决,包括现实世界限制下的实验表现,以及对健康公平正义、隐私和鲁棒性等重要主题的专门探索,以确保技术安全可靠。

03 人工智能可能彻底改变医学

过去一年大模型的发展也让很多人看到了AI在医学领域的潜力。

谷歌就是这个领域垂直模式的典型代表。

的 Med-PaLM 2 根据 14 项标准进行了测试,结果与医学专家一样好。

还记得去年,一个4岁的男孩得了一种“怪病”,三年来看了17位医生,但都无法解释疼痛的具体原因。

直到小男孩的母亲登记并上传了他的病情后,他才终于得到了正确的诊断。

近日,有网友发帖称,自己在求助下发现了女友过敏反应。

凌晨4点,她全身出现大面积荨麻疹。 到医院后,医生给她静脉注射皮质类固醇,她的病情就好了。 医生说可能是防腐剂/防腐剂/食用化学品造成的,但我们一向吃得干净,怎么会出现这种情况呢?

接下来,他们告诉 GPT-4 他们在过去 24 小时内吃过的所有食物,然后要求它对最可能的过敏原进行排名。

GPT-4一开始以为是巧克力里的榛子的缘故,但后来网友们突然想起昨天从超市买的肉,就从垃圾桶里捡了出来,把它的配料送给了GPT-4……

成分:牛肉(86%)、水、面包屑(大米和玉米粉、淀粉、玉米、盐、葡萄糖)、盐、甜菜提取物、香料和香草、天然香料和防腐剂 E223(亚硫酸盐)。

GPT-4立即将亚硫酸盐列为可能引起荨麻疹的首要过敏原,谷歌搜索证实它是引起荨麻疹的原因。

最后发现,这和医生说的相符,很可能是食物防腐剂过敏。

另一位网友也分享了自己的心路历程,利用GPT发现了医生错过的疾病联系。

一年前,我的身体正在与自己交战,而且我的病情恶化的速度超出了专家的理解。 然后,GPT 就成了我的了。

如今,谷歌推出的AMIE系统再次引领医疗AI革命。

该论文的作者表示:“据我们所知,这是第一个专为诊断对话和记录临床病史而设计的对话式人工智能系统。”

AI医疗前景广阔。

参考:

本文来自微信公众号“新智元”(ID:),作者:新智元,36氪经授权发布。