火出圈的ChatGPT用于用药咨询能胜任吗？-环球医学

关于环球医学

010-84476011

环球医学>> 临床用药>> 其他科室>>正文内容

其他科室

火出圈的ChatGPT用于用药咨询能胜任吗？

来源：时间：2023年08月11日点击数: 5星

近两年聊天机器人ChatGPT可谓火出圈，能写论文、编代码、回答客观问题、创作小说……几乎无所不能的ChatGPT在医学中的发展前景也十分可观。

那么，在用药咨询方面，其能力究竟如何？GPT-4版本与其前辈GPT-3.5版本谁更优？2023年6月，发表在《J Telemed Telecare》的一项研究可供参考。

准确性和重复性 GPT-4胜出

发表在《J Telemed Telecare》的该项研究，旨在调查ChatGPT在用药咨询中的准确性和可重复性。此外，研究人员试图探索与GPT-3.5相比，GPT-4的潜在改进。

研究人员根据咨询频率、药物治疗各个方面的覆盖范围（如适应证、剂量、不良反应、药物相互作用、兼容性、禁忌证、特殊人群的使用、给药、治疗药物监测和储存）以及药物说明书、指南或Micromedex数据库中是否有明确答案，回顾性地从研究人员所在医院的记录中选择了典型的用药咨询问题。

总共选择了24个问题向GPT-3.5和GPT-4提问，其中一半（1～12）由临床医生或护士提出，另一半由患者（13～24）提出。24个问题具体如下：

1.氟康唑与红霉素可以一起使用吗？
2.咪达唑仑与苯巴比妥可以同瓶输注吗？
3.可以用氯化钠溶液溶解胺碘酮吗？
4.一例肌酐请清除率（CrCL）为30ml/min的患者，是否需要下调氟康唑的剂量？
5.头孢唑林输注前需要皮试吗？
6.1g厄他培南需要输注多久？
7.患者之前服用替米沙坦40 mg/d控制血压较好，若使用其他ARB的替代药物，可以选择什么，给予多大剂量？
8.一例患者在输注莫西沙星的过程中出现静脉炎，我们该怎么处理？
9.丙戊酸钠治疗癫痫的目标血药浓度是多少？
10.服用利伐沙班抗凝患者，准备进行内镜下去除息肉手术，术前什么时候停利伐沙班合适？
11.骨科一名14岁儿童，股骨近端骨折，拟行手术，术后镇痛药物否可以使用帕瑞昔布?
12.妊娠期高血压已使用拉贝洛尔，血压仍不能控制，能否使用福辛普利？
13.哺乳期感冒发烧，可以使用布洛芬吗？
14.可以同时服用左甲状腺素钠和碳酸钙吗？服用两药至少需要间隔多久？
15.瑞舒伐他汀应该在一天中的什么时间服用？
16.酒石酸美托洛尔应该在什么时候服用？
17.硫酸亚铁片应该在什么时候服用？餐前还是餐后？
18.30岁成人感冒发烧，3小时前服用过一片对乙酰氨基酚缓释片（0.65g），现在体温仍然高，现在可以再次服药吗？
19.利伐沙班片漏服一天该怎么办？
20.地舒单抗是否一定要冷藏保存？从冰箱取出后能放多久？
21.开始服用阿托伐他汀后约2周，感觉胳膊疼该怎么办？
22.二甲双胍片常见的不良反应有哪些？
23.能否提供一份详细的阿仑膦酸钠患者教育材料
24.布地奈德福莫特罗粉吸入剂应该怎么用？有哪些注意事项？

在2月21日和3月28日，研究人员分别向GPT-3.5和GPT-4提交了选定的问题以获得回复。为了评估ChatGPT回答的可重复性，三位独立的调查人员在同一天用相同的问法提出了相同的问题。对每个问题记录和评估了两组6个回答。两名药师独立地将回答评定为“准确”和“不准确”，后者包括正确但不完整的答案，混合着正确和错误信息的答案，或完全错误的答案。通过与第3名高级药师协商解决分歧。如果一组中所有3个回答一致准确，那么这个问题的可重复性就被认为是“良好”。随后，研究人员为每个问题选择最佳答案，并分析GPT-4和GPT-3.5给出最佳答案的比例。使用卡方检验比较两组之间的频率和比例。

在24个选定的问题中，GPT-3.5组产生了72个答案，其中52个（72.2%）被评为“准确”。相比之下，GPT-4查询集产生64个（88.9%）“准确”回答（P=0.012）。

在24个问题中，GPT-3.5组中有11个（45.8%）始终得到3个“准确”答案，而在GPT-4组中，这一比例显著提高到20个（83.3%）（P=0.007），表明GPT-4在准确性和重复性方面都优于GPT-3.5。

此外，研究人员还发现4个问题在GPT-3.5和GPT-4之间产生了几乎相同的答案。在能够选择最佳答案的20个问题中，14个（70.0%）来自GPT-4查询集，其余6个（30.0%）来自GPT-3.5查询集。这表明GPT-4生成的回答比GPT-3.5生成的回答内容更丰富、更有条理、更可读。

ChatGPT查询能力也有缺点

探索性研究表明，ChatGPT解决各种深度用药咨询的能力通常是可接受的，特别是GPT-4版本。然而，研究人员观察到不准确的回答可能会带来安全风险，特别是在识别禁忌证和药物不相容方面。

研究人员还注意到，由于答案生成过程中固有的随机性，在多个场合重复提交相同的问题可能会产生不一致的回答。此外，ChatGPT不提供引用，并且缺乏识别自身错误的能力。在ChatGPT产生的输出超出人们知识范围的情况下，研究人员评估其逻辑一致性的能力就会受到阻碍。

研究人员认为，人工智能生成的医疗回答在医疗保健领域具有巨大的潜力，特别是考虑到高质量医疗资源的稀缺性和对人工智能系统的访问相对不受限的情况下。医疗从业人员可以利用他们已有的知识交叉参考人工智能生成的回答，从而增强决策能力，提高临床效率。人工智能生成的回答还可以为患者提供初步咨询信息，并附有明确的免责声明，说明所提供的信息不可取代医疗建议，患者在采取任何行动之前应寻求专业医疗建议。

未来，如果人工智能系统在专门的医疗信息数据库上进行实时训练，其在医疗保健中的价值将进一步提升。有必要进行进一步的研究，以评估人工智能在不同医疗环境中的应用能力，并探索与之相关的潜在风险。

（选题审校：程吟楚编辑：余霞霞）
（本文由北京大学第三医院药剂科翟所迪教授及其团队选题并审校，环球医学资讯编辑完成。）

参考资料：
J Telemed Telecare. 2023 Jun 22;1357633X231181922.
Chat GPT-4 significantly surpasses GPT-3.5 in drug information queries
https://pubmed.ncbi.nlm.nih.gov/37350055/
10.1177/1357633X231181922