AI看病小心!MIT新研究揭病患「錯字、多餘空白」影響判讀 女性易被誤判
【編譯黃惠瑜/綜合外電】隨著人工智慧(AI)越來越常被用來輔助病患臨床診斷與治療建議,外界對「AI看病」的準確性也出現更多疑慮。美國麻省理工學院(MIT)的最新研究就發現,在病患輸入的資訊裡,如果出現像是錯別字、多餘的空白,或是情緒化的語句等「非臨床」細節,都可能大幅降低AI判讀的準確度。

美國麻省理工學院新聞網(MIT News)近日報導,該校一支AI研究團隊最新研究指出,現今被用來提供治療建議的大型語言模型(large language model,LLM),可能會因為病患輸入的資訊中夾雜「非臨床」資訊而出錯。
這項研究選擇了4種不同的LLM來測試:OpenAI的大型商業模型GPT-4、Meta的大型開源模型LLama-3-70b、Meta較小型的開源模型(LLama-3-8B),以及Writer公司專為醫療領域打造的模型LLM Palmyra-Med (20B)。
研究結果指出,像是病患訊息中的錯別字、多餘的空白,或是帶有誇張和非正式用語的語句,這些看似與病情無關的資訊,都可能導致AI模型判讀失準,進而影響病患獲得正確的治療建議。
研究發現,若對病患訊息進行文字風格上或語法上的修改,都可能讓AI誤判病情,讓需要看醫生的病患錯失就醫機會。
他們的分析還顯示,AI看病似乎有性別差異,女性病患更容易被誤判成無需就醫,但實際人類醫生診斷卻是需要就醫的。
這項研究的主要作者、同時也是MIT電機工程與電腦科學系(EECS)研究生古拉巴蒂娜(Abinitha Gourabathina)表示,「這些模型通常是在醫療考試題目上進行訓練和測試,但隨後卻被用於評估臨床病例的嚴重性等任務,這些與訓練情境差異相當大。對於LLM,我們還有太多不了解的地方」。
研究指出,在將LLM應用於像提供治療建議這類高風險領域之前,必須進行更嚴格、更透徹的研究。
這篇研究《The Medium is the Message: How Non-Clinical Information Shapes Clinical Decisions in LLMs》發表在「2025年計算機協會公平性、問責制與透明度」會議(ACM FAccT 2025)。