日前,Google Research 和 Google DeepMind 的 AI 團隊開發了一款基于大語言模型的人工智能系統, AMIE(Articulate Medical Intelligence Explorer),針對診斷對話進行了優化。AMIE采用了一種強化學習算法中的「自我博弈」方法,可以在一個模擬環境中自我對弈,通過自動反饋機制,可在各種疾病、醫學專科和環境中進行擴展學習。AMIE已通過圖靈測試。該研究于 2024 年 1 月 11 日發布在 arXiv 預印平臺。
研究人員基于真實世界數據集訓練AMIE,這些數據集包括醫學推理、醫學總結和真實世界的臨床對話。但同時也面臨著挑戰,一方面,現有的真實世界數據往往無法捕捉到大量的醫療條件和場景,這阻礙了數據的可擴展性和全面性。另一方面,從真實世界對話記錄中獲得的數據往往是嘈雜的,包含含糊不清的語言(包括俚語、行話、幽默和諷刺)、中斷、不合語法的語句和不明確的引用。
為了解決這些局限性,研究人員設計了一個基于自演的模擬學習環境,讓聊天機器人訓練自己“對話”。該環境具有自動反饋機制,用于模擬醫療環境中的診斷性醫療對話,從而在多種醫療條件和環境中擴展AMIE的知識和能力。
研究人員利用現有的現實世界數據集(例如電子健康記錄和轉錄的醫療對話)對基礎 LLM 進行了微調。為了進一步訓練模型,研究人員要求 LLM 扮演患有特定病癥的人,以及富有同理心的臨床醫生,旨在了解患者的病史并設計潛在的診斷。
團隊設計了一個框架,來評估診斷對話的過程,包括病史采集、診斷準確性、管理推理、溝通技巧和同理心。通過一項隨機、雙盲交叉研究,以客觀結構化臨床檢查(OSCE)的方式與經過驗證的患者參與者進行基于文本的咨詢,將 AMIE 的表現與初級保健醫生(PCP)的表現進行了比較。
該研究包括來自加拿大、英國和印度臨床提供者的 149 個病例場景、20 個與 AMIE 進行比較的初級保健醫生(PCP),以及專科醫生和患者參與者的評估。研究人員觀察到AMIE在模擬診斷對話中的表現至少與初級保健醫生不相上下。根據專科醫生的說法,AMIE的診斷準確性更高,在32個指標中的28個指標上表現更優。根據參與研究的患者的說法,AMIE在26個指標中的24個指標上表現更優,包括禮貌、解釋病情和治療、給人誠實的印象以及表達關心和承諾等。
AMIE表現出了充分的潛力,但目前該工具仍處于純粹的實驗階段,還沒有在真正的患者身上進行過測試。該團隊在論文里也注明了該工具的局限性,應謹慎使用。
論文的合著者 Alan Karthikesalingam 表示,下一步是進行更詳細的研究,從而評估潛在的偏見,并確保該系統對不同人群是公平的。Google 團隊也在研究對臨床醫療問題系統測試的道德要求。未來還有許多重要的限制因素需要解決,包括在真實世界限制條件下的實驗表現,以及對健康公平與公正、隱私、穩健性等重要主題的專門探索,以確保技術的安全性和可靠性。
注:文章來源于大健康派,如有侵權,請聯系刪除