我在去年12月26發表AI診療:垃圾進→垃圾出,得到很大的迴響,《關鍵評論》也來要求轉載。(註:從2019年10月到現在,《關鍵評論》已經發表了92篇我的文章,其中87篇是轉載,5 篇是邀稿)

今天要跟大家分享一位讀者的回應,以及一篇相關的報導。

讀者Evan回應:垃圾進垃圾出,看到這句話我就進來了,AI相關科系會很有感,現在AI的發展還沒到可以"認知"語言,頂多就是"使用"(沒一個真的通過圖靈測試,但凡你問題難一點就現出原形),除非理論突破,或者出現像turbo code那種,有方法沒理論,不知道為什麼有用,但的確很好用____而現在AI顯然沒發展到這地步,其次,AI取代人類還有關鍵問題,道德義務的歸屬跟法律責任,出問題不能只靠丟包,以前一個蘿蔔一個坑,誰出事誰負責,AI出事誰負責,寫程式的?提供數據的?自己認栽?_____目前的普遍用丟包的,就像特斯拉的自動駕駛,發展到現在還是會跟你說,你要負責第一線情況,出事有可能賠償你,但沒辦法幫你承擔肇事的法律責任。

今天醫療資訊網KFF News發表Health Care AI, Intended To Save Money, Turns Out To Require a Lot of Expensive Humans(醫療保健 AI 旨在節省資金,但結果需要大量昂貴的人力)。我把它的重點翻譯如下。

幫助癌症患者做好艱難決定的準備是腫瘤醫師的職責。然而,他們並不總是記得這麼做。在賓州大學健康系統,一種預測死亡機率的人工智慧演算法會要求醫生談論患者的治療和臨終選擇。但它絕不是一個設定好之後就可以忘記的工具。根據 2022 年的一項研究,例行技術檢查顯示,該演算法在新冠肺炎疫情期間出現衰退,在預測死亡人數方面的準確率下降了 7 個百分點。

這可能會對現實生活產生影響。這項研究的主要作者、埃默里大學腫瘤學家Ravi Parikh告訴KFF 健康新聞,該工具數百次都未能促使醫生與需要的患者發起重要的討論。

史丹佛醫療保健首席數據科學家 Nigam Shah 表示:「每個人都認為人工智慧將幫助我們提高獲取資訊和能力,改善護理等等。所有這些都很好,但如果護理成本增加 20%,這可行嗎?」

政府官員擔心醫院缺乏資源來檢驗這些技術。 FDA 局長Robert Califf在最近的一次人工智能機構小組討論會上表示:「我已經進行了廣泛的調查。我不相信美國有任何一個醫療系統能夠驗證在臨床護理系統中實施的人工智慧演算法。」

如果技術傳播者是對的,那麼這項技術將變得無處不在並且有利可圖。投資公司 Bessemer Venture Partners 已經確定有 20 家專注於健康領域的 AI 新創公司,每家每年的收入預計將達到 1,000 萬美元。 FDA已批准了近千種人工智慧產品。

評估這些產品是否有效具有挑戰性。評估它們是否能繼續工作則更加棘手。

對於醫院和醫療服務提供者來說,選擇最適合其需求的演算法並不容易。普通醫生並沒有超級計算機,也沒有針對人工智慧的消費者報告。

美國醫學會前主席Jesse Ehrenfeld說:「我們沒有標準。今天我無法指出任何關於在部署演算法模型時如何評估、監控和查看其性能的標準,無論該演算法模型是否支援人工智慧。」

或許醫生辦公室裡最常見的人工智慧產品是Ambient Documentation。它可以聆聽和總結患者的就診情況。去年,Rock Health 的投資者追蹤到有 3.53 億美元流入這些文件公司。但是,Ehrenfeld說:「目前還沒有標準來比較這些工具的功能。」

這就是問題所在,即使是很小的錯誤也可能會造成災難性的後果。史丹佛大學的一個團隊嘗試使用大型語言模型(ChatGPT 等流行 AI 工具的基礎技術)來總結患者的病史。他們將結果與醫生寫的內容進行了比較。

史丹佛大學的 Shah 表示:「即使在最好的情況下,模型的錯誤率也高達 35%。 在醫學上,當你在寫摘要時,你忘記了一個詞,比如‘發燒’——這是一個問題,對吧?」

有時演算法失敗的原因是相當合乎邏輯的。例如,當醫院更換實驗室提供者時,基礎數據的變化可能會削弱其有效性。

然而,有時,陷阱會毫無緣由地出現。

波士頓麻省總醫院個人化醫療計畫的技術主管Sandy Aronson表示,他的團隊測試一款旨在幫助遺傳諮詢師查找DNA 變異相關文獻的應用程式時,該產品出現了「不確定性」——也就是說,當被問及同樣的在短時間內多次提問,卻得出不同的結果。

如果指標和標準很少,而且錯誤會因為奇怪的原因而出現,那麼機構該怎麼辦?投入大量資源。Shah說,在史丹佛大學,僅僅審查兩個模型的公平性和可靠性就花了 8 到 10 個月的時間和 115 個工時。

KFF 健康新聞採訪的專家提出了人工智慧監控人工智慧的想法,並由一些(人類)數據專家監控兩者。所有人都承認,這將需要投入更多的資金——考慮到醫院預算的現實情況和人工智慧技術專家的有限供應,這是一個艱鉅的要求。

Shah說:「看到我們正在融化冰山來建立一個模型來監測另一個模型,這真是太棒了。但這真的是我們想要的嗎?我們還需要多少更多的人?」