当前位置:主页 > 健康评谈

国内首款医疗大模型-医联MedGPT,是如何打造的?

时间:2023-08-07 16:57 来源:互联网
字号:

2018年,医联应用NLP(自然语言处理)、CV(计算机视觉)等AI技术,落地了一系列的应用场景。包括智能健康终端、智能分诊、智能导诊、口腔影响识别、智能辅助应用等。智能医助也是在当时有了“雏形”。但彼时智能医助的尝试“是失败的”,当时的诊断决策信息收集主要通过选择题完成,长达四五十项的冗长内容,让用户和医生都不买单。“我们认为是方向,但技术突破不了。”

2019年,团队感觉“有点受挫了”。但在通用全科AI上一直“受挫”后,团队开始针对单病种、分阶段建立AI诊疗模型,比如在疾病预防阶段,建立疾病早筛模型;也不做全病种,而是做肝病等专病。

到2021年时,医联初步形成了一套基于互联网医院的AI诊疗系统。王磊介绍,虽然当时在自然语音处理这一块存在很大瓶颈,用户体验不是很好,但从线上的检验检测、智能硬件和保险等整个链条已经打通。“包括当时也已经积累了海量的数据,可以认为我们基本的能力都准备好了。”

问题只剩下一个——始终没有办法解决自然顺畅的AI疾病诊疗全流程。直到去年年底,ChatGPT出现了。

“发布时我们就关注了它,但最初我们有些后知后觉;过了一个月,我们就突然反应过来了,基于Transformer架构大语言模型出来之后,好像我们自然语言沟通能力、识别能力这些问题就自然解决了。”王磊解释道,过去冗长的选择题,是不断排除可能存在的病因,最后下疑似诊断,但勾选体验不好,大模型出来之后,就能通过医患之间的多轮问询做鉴别诊断。

大语言模型就像“最后一块拼图”。疑似诊断之后,可以继续开检测单确诊,之后是下诊断,后面的逻辑与此前已经具备的大病管理体系也就“大差不差”了。

很快,医联研发团队基于Transformer架构,开发了国内首款医疗大语言模型——MedGPT,并于今年5月正式发布。

医生当起“训练师”

对于医疗类大模型而言,不仅准确度要求更高,且医疗领域的数据获得相对来说更为稀缺。

医联的优势是,通过过去几年数据的清洗与标注工作,已经形成了结构化、规则化的一些数据,同时也会投喂大量医学文献、临床指南、药品库的信息,以及此前大量脱敏的线上线下的医患对话数据。此外,还会让医生将真实的医患数据加工成MedGPT预训练过程中需要的数据。

“到晚上,我们会让医生为真实的医患数据打标签,比如哪句话是患者的主诉,哪句话是现病史,整个对话的目的。”王磊说,训练的重点主要以很多大病种、高质量的医患对话数据去微调。

当然,这依然无法避免大模型的不准确性。医联组织了大量的医生、专家对其进行调教。比如,一位医生就曾提到一个很关键的观点,有患者主诉有胸痛,此时AI还在一直问,问得特别细。“但对于胸痛的患者,一定要先把急症和重症排除,胸痛有可能是心绞痛、心肌梗死,问题都非常大。一定不能将急病和重病漏掉,要让他及时做相关的处理。”

王磊表示,MedGPT主要由两个系统组成:大模型系统与专家系统。其中,大模型完成了60%的工作,专家系统完成最终的40%。以此来不断优化医学的准确性、有效性。

据介绍,医联MedGPT目前的参数规模处于行业领先地位,预训练阶段使用了超过20亿的医学文本数据,微调训练阶段使⽤了800万条的高质量结构化临床诊疗数据,并投入超过100名医生参与人工反馈监督微调训练。

在廉泽良看来,目前所说的人工智能时代来临,非常重要的技术突破和变革就是机器能够和人类没有障碍地进行交流,而且是在具有相当的智力和智能的前提之下——

AI的1.0时代,可以称为“黑暗时代”。是由很多强规则化的、非常零散的、孤岛式的AI应用所构成。因为每一个特定的任务场景都需要花大量的时间去做数据的清洗、数据的结构化,再去写特定的规则,从而实现一个非常特定的场景任务,是一个很机械的过程。

AI的2.0时代的技术突破,便是以Transformer架构为代表的大语言模型技术。它的核心特点是,可以把所有的完全非结构化的文本语料进行输入,让其自身从数据里面自学习。能够把很多过往的技术、学科和知识串联起来,进行所谓的高并发、长距离的分析和应用。

由此得到的效果是,AI医生一方面复制了真人医生的知识、经验和诊疗能力;另一方面,它实现了像真人医生一样的自然语言的沟通和理解能力。

如果将AI医生类比真人医生,双方的成长之路有许多共通之处。

AI医生的预训练阶段,对应的是真人医生在医学院长达数年的学习阶段。

AI医生会被投喂大量医学教材、指南,各种各样高质量的临床病例数据,不仅学医学知识,也要学多学科知识,最后形成对医学的理解与分析能力。AI医生的二次监督训练,对应的是真人医生的规培。医学生进入临床将所学知识应用到实际医疗当中,AI医生也会接触到用户的实际反馈。

最后,医学生开始独立接诊,在实践中提高自己的专业能力,以满足不断变化的医疗需求和挑战;AI医生也会形成“数据飞轮”——也就是接待的患者越多,积累的用户数据越多,积累用户数据和反馈越多,模型能力更强,模型能力更强,就可以供更多的患者使用。

据介绍,目前医联MedGPT已经覆盖ICD10(国际疾病分类第十版)的60%疾病病种,并在近期将研发重心倾斜在多发疾病,以提升数字医院的普惠率。预计在2023年底,可以覆盖80%病种的就诊需求。

关闭此页 (责任编辑:华康)

健康新闻 | 今日新闻 | 头条资讯 | 健康百科 | 饮食营养 | 中医养生 | 预防保健 | 心理健康 | 生活常识 | 行业动态 | 健康焦点 | 健康评谈 | 网站地图

本站所有建议仅供用户参考,不可代替专业医师诊断、不可代替医师处方,请谨慎参阅,本站不承担由此引起的相关责任。

Copyright © 2017 yisheng.12120.net All Rights Reserved

电脑版 | 手机版