生成式人工智能在生成影像学报告方面的表现评估

http://www.100md.com 2024年12月2日新医学 2024年第11期

【摘要】目的评估2种生成式人工智能(AI)在生成腹部影像学报告方面的表现，并与人类医师进行比较。方法回顾性研究2023年6月至2024年5月在中山大学附属第三医院接受腹部CT和MRI检查的300例患者的影像学报告。使用生成式AI模型ERNIE 4.0和Claude 3.5 Sonnet对300例患者的影像学所见重新生成影像学报告，由5名放射科医师采用五点Likert量表(1表示强烈不同意，5表示强烈同意)评估其完整性、准确性、表达、幻觉和无修改接受度。采用Friedman和Nemenyi检验进行统计学分析。比较生成式AI与人类医师的表现差异。结果研究共纳入300例患者的影像学报告。在完整性方面，Claude 3.5 Sonnet与人类医师相当，均优于ERNIE 4.0 [(4.86±0.37)分 vs.(4.76±0.46)分 vs.(4.40±0.64)分，前两者比较P = 0.200，前两者与后者比较P均< 0.01]。在准确性方面，人类医师优于2种AI模型[(4.96±0.22)分 vs.(4.66±0.57)分 vs.(4.69±0.57)分 ......

百拇医药网 http://www.100md.com/html/paper/0253-9802/2024/11/001.htm

您现在查看是摘要页，全文长 21066 字符。