一诺倾心八月薇妮免费阅读:春闺帐暖-医疗AI如何选?专用模型识别疾病更准,GPT-4推理能力强但成本高昂
·研究人员发现,在生物医疗领域,尽管“定制版”垂类模型应用对于医学自然语言处理上仍有优势,但涉及复杂的推理,尤其是医学问答方面,闭源通用大模型GPT-4则更有明显优势。

澎湃新闻记者 蒋立冬 AI创意
大模型在生物医疗领域的应用情况如何?哪种模型更加适用?4月6日,《自然·通讯》(Nature Communications)杂志刊登了一项由耶鲁大学医学院的研究人员对大语言模型(LLMs)在生物医学自然语言处理(BioNLP)中的全面评估与应用指南(《Benchmarking large language models for biomedical natural language processing applications and recommendations》,以下简称“指南”)。在该份指南中,研究人员选择了12个来自 BioNLP 不同应用领域的数据集,评估了四种具有代表性的大模型GPT-3.5、GPT-4、LLaMA 2 和 PMC LLaMA在零样本、少样本和微调设置下的性能。
生物医学自然语言处理(BioNLP)技术是一种将自然语言处理技术应用于生物医学领域的交叉学科技术,核心是从大量的生物医学文本比如医学论文、电子病历、基因数据库等中自动提取有用的信息。
研究人员发现,在生物医疗领域,仅靠持续扩充预训练数据并不能显著提升开源生物医学大语言模型的整体表现,针对具体医学任务的微调才是关键。比如生物医学领域特定大模型的代表PMC -LLaMA,使用了32个A100 GPU对模型进行预训练,但最终评估并未发现该模型的性能有显著提升。PMC -LLaMA是由上海交通大学长聘轨副教授谢伟迪研究团队于2023年4月研发的垂类模型,基座模型使用的是LLaMA 2;研究人员发现,直接微调LLaMA 2可以获得更好或至少相似的性能。通过微调,模型可以针对性地学习医学领域的专业知识和复杂推理要求,从而在信息抽取、医学问答等任务上实现显著性能提升。
研究人员建议,未来在生物医疗应用中,应更多关注如何优化微调策略,以弥补预训练在处理专业医学文本时的不足。“需要一种更有效、更可持续的方法来开发特定于生物医学领域的大语言模型。”研究人员称。
相较于通用大模型,针对生物医疗领域里的“定制版”模型BioBERT和PubMedBERT(注释:Bert是一款由谷歌开发的预训练语言模型),在医学自然语言处理表现更出色。由于经过专业的医学数据训练,BioBERT和PubMedBERT这类“定制版”模型能够更精准地识别疾病名称、基因、化学物质以及理解医学术语,这一点表现比GPT-3.5和GPT-4为代表的通用大型语言模型更好。但涉及较为复杂的推理任务,尤其是医学问答方面,GPT-4则更有明显优势,能够“看懂并能思考”,生成更合理以及准确的回应。
对于生物医药行业普遍关心的大模型幻觉问题,此次研究结果表明,GPT-4在两个数据集上几乎没有出现幻觉问题。在零样本条件下,通用开源模型LLaMA 2则更容易出现幻觉问题,比如输出时常常出现信息不完整、格式不一致或提示无关内容的情况,它产生的幻觉案例约占测试样本的32%,比例远超GPT-3.5和GPT-4。
尽管GPT-4在众多评估任务中表现优异,但研究人员指出,其调用成本相当于GPT-3.5的60至100倍。对于预算有限的实际应用场景,医学机构可能会倾向于选用成本较低且效果可接受的GPT-3.5;而对于准确性要求极高、尤其是医学问答这类依赖复杂推理的任务中,GPT-4可能会是更理想的选择。