MLCommons推出新平台评估AI医疗模型

近年来，医疗行业积极拥抱人工智能，尤其在疫情的推动下。根据 Optum 的一项调查显示，80% 的医疗机构已经制定了人工智能战略，另有15% 计划启动相关项目。为满足需求，包括大型科技公司在内的供应商纷纷推出相关产品。

谷歌最近发布了 Med-PaLM2，这是一个用于回答医学问题和在医学文本中发现洞见的人工智能模型。此外，像 Hippocratic 和 OpenEvidence 等初创公司正在开发模型，为临床医生提供可操作的建议。

然而，随着越来越多针对医学应用的模型上市，了解哪些模型是否能够如广告所述地发挥作用变得越来越具有挑战性。由于医学模型往往是使用来自有限、狭窄的临床环境数据进行训练（例如东海岸的医院），一些模型对特定患者群体，通常是少数族裔群体，显示出偏见，导致在现实世界中产生有害影响。

为了建立一个可靠、可信赖的方法来评估和评价医疗模型，工程协会 MLCommons 开发了一个名为 MedPerf 的新型测试平台。MLCommons 表示，MedPerf 可以在 “多样化的真实医疗数据” 上评估人工智能模型，并保护患者隐私。

MedPerf 是由医疗工作组牵头进行的为期两年的合作成果，得到了行业和学术界的反馈，其中包括20多家公司和20多家学术机构的意见。与 MLCommons 的通用人工智能基准套件（如 MLPerf）不同，MedPerf 设计用于医疗模型的操作人员和客户，即医疗机构，而不是供应商。

通过 “联邦评估”，MedPerf 平台上的医院和诊所可以根据需要评估人工智能模型，并在现场进行评估。

MedPerf 支持流行的机器学习库，以及仅通过 API 提供的私有模型和模型，例如 Epic 和 Microsoft 的 Azure OpenAI Services。

今年早些时候，MedPerf 在一个系统测试中举办了由 NIH 资助的 Federated Tumor Segmentation （FeTS） Challenge，这是一个评估胶质母细胞瘤(一种侵袭性脑)术后治疗模型的大规模比较。MedPerf 今年支持了41个不同的模型的测试，这些模型在32个来自六个大洲的医疗机构的系统上运行，既有本地部署也有云端部署。

根据 MLCommons 的说法，所有模型在与训练数据的患者人口学特征不同的医疗机构中表现出了降低的性能，揭示了其中存在的偏见。

MLCommons 认为，MedPerf 目前主要用于评估放射学扫描分析模型，是实现其通过 “开放、中立和科学方法” 加速医疗人工智能的 “基础步骤”。它呼吁人工智能研究人员使用该平台验证自己的模型，并鼓励数据所有者注册其患者数据，以增加 MedPerf 测试的可靠性。

然而，这个平台是否真正解决了医疗人工智能领域中棘手的问题仍然值得商榷。杜克大学研究人员最近编写的一份报告揭示了人工智能营销和将技术应用于医生、护士及其周围复杂的医疗系统和技术系统的日常工作之间的巨大差距。往往情况并不仅仅是模型的问题，而是如何将技术融入到医疗工作中，包括设备的部署、互联网连接强度以及患者对人工智能辅助评估的反应。

医疗从业者对医疗人工智能持有复杂的观点。雅虎金融的一项调查发现，55% 的医护人员认为这项技术还不准备好使用，只有26% 的人认为可以信任。

这并不意味着医学模型偏见不是一个真正的问题，它确实存在并产生后果。例如，Epic 的系统用于识别败血症病例，但发现错过了许多病例，并经常发出误报。同时，对于不是谷歌或微软这样规模的组织来说，获得多样化、及时的医疗数据并非易事。

然而，将人们的健康问题过分依赖像 MedPerf 这样的平台是不明智的。毕竟，基准测试只能告诉我们故事的一部分。安全地部署医疗模型需要供应商及其客户进行持续、彻底的审计，更不用说研究人员了。缺乏此类测试是不负责任的行为。

（本文转载自站长之家）