原文:
哈工大团队开源医学智能问诊大模型 | 华佗: 基于中文医学知识的LLaMa指令微调模型 - 知乎
源码:
GitHub - SCIR-HI/Huatuo-Llama-Med-Chinese: Repo for BenTsao [original name: HuaTuo (华驼)], Llama-7B tuned with Chinese medical knowledge. 本草(原名:华驼)模型仓库,基于中文医学知识的LLaMA模型指令微调
本文首发至微信公众号:CVHub,不得以任何形式转载或售卖,仅供学习,违者必究!
哈工大团队开源医学智能问诊大模型 | 华佗: 基于中文医学知识的LLaMa指令微调模型mp.weixin.qq.com/s/YKR3Bt-Ii4M0MLJApWwyDQ正在上传…重新上传取消
Title:
HuaTuo: Tuning LLaMA Model with Chinese Medical Knowledge
https://arxiv.org/pdf/2304.06975v1.pdf
Code:
https://github.com/scir-hi/huatuo-llama-med-chinese
在生物医学领域,
LLM
模型(如
LLaMa
,
ChatGLM
)因为缺乏一定的医学专业知识语料而表现不佳。该项目通过
医学知识图谱
和
GPT3.5
API
构建了中文医学指令数据集,并对
LLaMa
模型进行了指令微调得到了一个针对医学领域的智能问诊模型
HuaTuo
,相比于未经过医学数据指令微调的原
LLaMa
而言,
HuaTuo
模型在智能问诊层面表现出色,可生成一些更为可靠的医学知识回答;与此同时,基于相同医学数据,该项目还训练了医疗版本的
ChatGLM
模型:
ChatGLM-6B-Med
,
除了华佗模型,该团队还即将发布扁鹊模型
PienChueh
(同为基于医学数据训练的大模型),欢迎大家届时使用体验。
ChatGPT
模型虽然表现出色,但毕竟不开源,开源社区已提供了许多平替方案,比如
LLaMa
等(7B,13B,30B,65B),其中7B具有70亿参数,训练成本最低,借助
Colossal AI
和
Deep Speed
大模型训练框架,也可以很好的平民化训练并针对性的用于解决特定业务场景下的问题。
不管是原始
LLaMa
,还是
ChatGPT
等其它大语言模型,它们在医疗领域的应用仍然存在一些问题。比如笔者前段时间问原始
LLaMa
,给它输入一段病情描述,让它输出病情诊断信息,它会给出一些非常简短且常规的回答,完全没回答到点子上;虽然在这一层面
ChatGPT
做的更好,回答的也更加详细,但更多的也是一些偏向于科普式的回答,并没有非常惊艳的效果。而经过专门医疗数据训练的
Glass AI
(链接:
https://glass.health/ai
)模型在智能诊断上表现
极其出色
,感兴趣的读者可自行注册体验(强烈推荐)。但由于
Glass AI
是一款已商业化的AI智能诊断模型,也并未开源。
由于医疗领域专业知识太多,而
LLMs
的一般领域知识往往无法满足这种专业化需求,如果直接用于智能诊断,极有可能导致诊断精度、药品推荐和医疗建议等方面的不准确性,甚至危及患者的生命。所以,将专业的医学领域知识,诊断案例数据输入到大模型进行专业化学习非常有必要。
目前,已经有一些方法尝试解决这个问题,但这些方法主要依赖于从人工交流中检索医学信息,容易出现人为错误。此外,
LLMs
通常只在英语语境下进行训练,这限制了它们在其他语言环境下的理解和响应能力,例如中文,因此它们在中国语境中的应用受到极大限制。
现有的方法主要采用
ChatGPT
进行数据辅助,将
ChatGPT
某一领域的知识有效蒸馏到较小的模型:比如
Chatdoctor
代表了将
LLMs
在生物医学领域的第一次尝试,通过调用
ChatGPT
API来生成一些医学语料数据并叠加一部分真实场景医患数据,来微调
LLaMa
;为了解决中文语境问题,
DoctorGLM
利用
ChatGLM-6B
作为基础模型,并用
ChatDoctor
数据集的中文翻译通过
ChatGPT
获取进行微调。这些模型出来的效果只能说还行,但距离真实落地还很远。毕竟通过未经过专门医学语料训练的
ChatGPT
获取的训练数据也是非常general的回答,对模型得不到质的提升。
本项目介绍了一种针对生物医学领域、专注于中文语言的LLM模型—HuaTuo(华驼)。为了保证模型在生物医学领域回答问题的准确性,研究人员通过从中文医学知识图谱
CMeKG
中提取相关的医学知识,生成多样的指令数据,以确保模型回答问题的事实正确性,并收集了超过8000条指令数据进行监督微调。该模型基于开源的
LLaMa-7B
基础模型,整合了
CMeKG
的结构化和非结构化医学知识,并利用基于知识的指令数据进行微调,使得模型具有较为丰富的医学领域专业知识,从而为智能诊断作出较为专业的回答。
HuaTuo Model
Base Model
LLaMA
作为一个开源模型,具有7B到65B各个量级的模型;为了更快速高效的训练,作者采用
LLaMA-7B
作为
HuaTuo
的基础模型
Medical Knowledge
医学知识的种类包括:结构化医学知识和非结构化医学知识。结构化医学知识指的是医学知识图谱等形式化的知识,而非结构化医学知识则是如医学指南等的非形式化的知识。作者在这里使用了一个名为
CMeKG
的中文医学知识图谱,其中提供了关于疾病、药物、症状等的检索医学知识,目的是为了让大模型学习一些相关的专业医学知识。下表1展示了
CMeKG
知识库中的几个医学知识样例。
Knowledge-based Instruction Data
instruct-tuning
是一种有助于大模型在
zero-shot
场景下表现出令人满意性能的
tuning
微调技术,但这需要有足够丰富的
instruct
以指导大模型学会理解
instruct
命令,并作出反馈,当然我们也可以根据上述医学知识可生成一系列
instruct-input-output
模式的数据如下表2所示。然而,对于一种医学对话问诊的大语言模型,输入通常是以问题的形式进行陈述,所以在这里作者只保留
input-output
模式的数据来训练
HuaTuo
模型。
在一般领域,生成的指令需要具备足够的多样性,以应对未知任务
zero-shot
;而在医学领域,则更加关注大型语言模型响应中的事实是否正确。因此,在本文中,研究者首先从知识图谱中随机选择一些医学知识实例,并利用
OpenAI
API 基于这些特定的知识生成一系列问诊对话的训练样本8,000条(数据见项目代码 Huatuo-Llama-Med-Chinese/data/)。如下表3所示
Baselines
为了对比
HuaTuo
和其它基础模型的性能,作者进行了与三个基础模型的比较分析:
-
LLaMA
作为
HuaTuo
的基础模型,作者选择了原生
LLaMA-7B
作为基础模型比较对象。
-
Alpaca
是
LLaMA
的一种
instruct-tuning
版本模型,拥有超过80,000个在通用领域中生成的训练样本。
-
ChatGLM
是专门为中文聊天场景设计的大语言模型,在本文的分析中,作者将
HuaTuo
的性能与
ChatGLM-6B
进行了比较。
Metrics
自然语言生成领域中常用的评估指标是
Bleu
和
Rouge
,作者在医疗问答任务中引入了新评估指标
SUS
,分别代表:
安全性
、
可用性
和
流畅性
。其中,
安全性
维度评估生成的响应是否存在误导用户、对用户健康构成危险的潜在因素,例如错误的药物建议;
可用性
维度评估生成的响应是否反映了医疗专业知识;
流畅性
维度则评估生成模型作为语言模型的能力。
在这项研究中,作者构建了一个中文对话场景的医疗问诊测试集,并将
HuaTuo
与其他三个基准模型进行了比较。为了评估模型性能,本项目招募了五名具有医学背景的专业医师,在
SUS
三个维度上评估模型的安全性、可用性和流畅性。
SUS
刻度从1(不可接受)到3(好),其中2表示可接受的响应。平均
SUS
得分如下表4所示。尽管
LLaMA
获得了最高的安全得分,但其响应常常缺乏信息且重述问题,导致可用性得分低。另一方面,
HuaTuo
模型显着提高了知识可用性,同时没有太多地牺牲安全性。
CVHub是一家专注于计算机视觉领域的高质量知识分享平台,全站技术文章原创率常年高达99%,每日为您呈献全方位、多领域、有深度的前沿AI论文解决及配套的行业级应用解决方案,提供科研 | 技术 | 就业一站式服务,涵盖有监督/半监督/无监督/自监督的各类2D/3D的检测/分类/分割/跟踪/姿态/超分/重建等全栈领域以及最新的AIGC等生成式模型。欢迎关注微信公众号CVHub或添加小编好友:cv_huber,备注“知乎”,参与实时的学术&技术互动交流,领取CV学习大礼包,及时订阅最新的国内外大厂校招&社招资讯!
发布于 2023-05-04 00:09・IP 属地广东
原文链接:
https://zhuanlan.zhihu.com/p/626536996
来源:机器之心
本文约2000字,建议阅读5分钟
香港
中文
大学(深圳)和深圳市大数据研究院所在的王本友教授
团队
训练并
开源
了一个新的医疗大
模型
——Huatuo
GPT
(
华佗
GPT
),以使语言
模型
具备像医生一样的诊断能力和提供有用信息的能力。基于医生回复和
Chat
GPT
回复,让语言
模型
成为医生提供丰富且准确的
问诊
。在医疗领域,大规模语言
模型
(LLM)具有广阔的应用潜力。尽管像
Chat
GPT
这样...
中文
医疗大
模型
是指通过利用自然语言处理技术和机器学习算法,在大量的医疗文本数据中预训练出来的
模型
。它可以实现对医疗信息的分类、摘要、问答系统、机器翻译等功能,是医疗行业中的重要工具。在医疗领域中,大规模语言
模型
(Large Language Model)具有广泛的应用潜力。
乾明 发自 凹非寺量子位 报道 | 公众号 QbitAI腾讯AI,
开源
又有新动作。旗下顶级AI实验室腾讯优图,对外
开源
了腾讯首个医疗AI项目——深度学习预训练
模型
Med...
来自:
哈工大
SCIR深度学习自然语言处理 分享进NLP群—>加入NLP交流群1.背景当前大规模语言
模型
(Large Language Model)在通用域自然语言处理任务上已获得巨大的成功[1,2],然而,由于训练预料占比有限,在部分垂直领域,如生物
医学
,大规模语言
模型
的效果仍有限,为缓解上述问题,我们提出了一种基于
医学知识
增强的大型语言
模型
指令
微调
方法,一种让通用大
模型
适配行业并改造成行业...
因此,未来可能会出现更加轻量级的
Chat
GPT
模型
,或者采用一些其他的优化技术,如
模型
压缩和分布式训练等,来降低计算成本并提高运行效率。总的来说,
Chat
GPT
是一个非常重要的
人工智能
技术,具有广泛的应用前景。随着技术的不断进步和优化,可以预见
Chat
GPT
将会在未来发挥更加重要的作用,并且不断推动
人工智能
领域的发展。例如,在银行或者电商领域,
Chat
GPT
可以回答用户的问题,提供有关产品、价格、服务等方面的信息。例如,在教学过程中,
Chat
GPT
可以回答学生的问题,提供辅导或者进行知识点的梳理。
该项目通过
医学知识
图谱和
GPT
3.5API构建了
中文
医学
指令
数据集,并对
LLaMa
模型
进行了
指令
微调
得到了一个针对
医学
领域的
智能
问诊
模型
HuaTuo,相比于未经过
医学
数据
指令
微调
的原
LLaMa
而言,HuaTuo
模型
在
智能
问诊
层面表现出色,可生成一些更为可靠的
医学知识
回答。HuggingFace
开源
的一个高效
微调
大
模型
的 PEFT 库(Parameter-Efficient Fine-Tuning),目前包含LoRA,Prefix Tuning,Prompt Tuning,P-Tuning 四种算法。
本文根据现有近20个
中文
医疗领域
开源
大
模型
网络众神们的总结分析,结合作者探索行业发展浅见,编制形成本文,意图对发展中的
中文
医疗大
模型
提供多方面概览,呈现采撷各自精彩与独特之处,共同推进
中文
医疗LLM应用等垂直行业大
模型
的探索与实践。
元学习的目标是在各种学习任务上训练
模型
,这样它就可以只使用少量的训练样本来解决新任务。论文所提出的。该算法与任何用梯度下降训练的
模型
兼容,适用于各种学习问题,包括分类、回归和强化学习。论文中表明,该算法在基准上达到了SOTA的性能,在上也产出了良好的结果,。