我在去年12月26發表AI診療:垃圾進→垃圾出,得到很大的迴響,《關鍵評論》也來要求轉載。(註:從2019年10月到現在,《關鍵評論》已經發表了92篇我的文章,其中87篇是轉載,5 篇是邀稿)
今天要跟大家分享一位讀者的回應,以及一篇相關的報導。
讀者Evan回應:垃圾進垃圾出,看到這句話我就進來了,AI相關科系會很有感,現在AI的發展還沒到可以"認知"語言,頂多就是"使用"(沒一個真的通過圖靈測試,但凡你問題難一點就現出原形),除非理論突破,或者出現像turbo code那種,有方法沒理論,不知道為什麼有用,但的確很好用____而現在AI顯然沒發展到這地步,其次,AI取代人類還有關鍵問題,道德義務的歸屬跟法律責任,出問題不能只靠丟包,以前一個蘿蔔一個坑,誰出事誰負責,AI出事誰負責,寫程式的?提供數據的?自己認栽?_____目前的普遍用丟包的,就像特斯拉的自動駕駛,發展到現在還是會跟你說,你要負責第一線情況,出事有可能賠償你,但沒辦法幫你承擔肇事的法律責任。
今天醫療資訊網KFF News發表Health Care AI, Intended To Save Money, Turns Out To Require a Lot of Expensive Humans(醫療保健 AI 旨在節省資金,但結果需要大量昂貴的人力)。我把它的重點翻譯如下。

幫助癌症患者做好艱難決定的準備是腫瘤醫師的職責。然而,他們並不總是記得這麼做。在賓州大學健康系統,一種預測死亡機率的人工智慧演算法會要求醫生談論患者的治療和臨終選擇。但它絕不是一個設定好之後就可以忘記的工具。根據 2022 年的一項研究,例行技術檢查顯示,該演算法在新冠肺炎疫情期間出現衰退,在預測死亡人數方面的準確率下降了 7 個百分點。
這可能會對現實生活產生影響。這項研究的主要作者、埃默里大學腫瘤學家Ravi Parikh告訴KFF 健康新聞,該工具數百次都未能促使醫生與需要的患者發起重要的討論。
史丹佛醫療保健首席數據科學家 Nigam Shah 表示:「每個人都認為人工智慧將幫助我們提高獲取資訊和能力,改善護理等等。所有這些都很好,但如果護理成本增加 20%,這可行嗎?」
政府官員擔心醫院缺乏資源來檢驗這些技術。 FDA 局長Robert Califf在最近的一次人工智能機構小組討論會上表示:「我已經進行了廣泛的調查。我不相信美國有任何一個醫療系統能夠驗證在臨床護理系統中實施的人工智慧演算法。」
如果技術傳播者是對的,那麼這項技術將變得無處不在並且有利可圖。投資公司 Bessemer Venture Partners 已經確定有 20 家專注於健康領域的 AI 新創公司,每家每年的收入預計將達到 1,000 萬美元。 FDA已批准了近千種人工智慧產品。
評估這些產品是否有效具有挑戰性。評估它們是否能繼續工作則更加棘手。
對於醫院和醫療服務提供者來說,選擇最適合其需求的演算法並不容易。普通醫生並沒有超級計算機,也沒有針對人工智慧的消費者報告。
美國醫學會前主席Jesse Ehrenfeld說:「我們沒有標準。今天我無法指出任何關於在部署演算法模型時如何評估、監控和查看其性能的標準,無論該演算法模型是否支援人工智慧。」
或許醫生辦公室裡最常見的人工智慧產品是Ambient Documentation。它可以聆聽和總結患者的就診情況。去年,Rock Health 的投資者追蹤到有 3.53 億美元流入這些文件公司。但是,Ehrenfeld說:「目前還沒有標準來比較這些工具的功能。」
這就是問題所在,即使是很小的錯誤也可能會造成災難性的後果。史丹佛大學的一個團隊嘗試使用大型語言模型(ChatGPT 等流行 AI 工具的基礎技術)來總結患者的病史。他們將結果與醫生寫的內容進行了比較。
史丹佛大學的 Shah 表示:「即使在最好的情況下,模型的錯誤率也高達 35%。 在醫學上,當你在寫摘要時,你忘記了一個詞,比如‘發燒’——這是一個問題,對吧?」
有時演算法失敗的原因是相當合乎邏輯的。例如,當醫院更換實驗室提供者時,基礎數據的變化可能會削弱其有效性。
然而,有時,陷阱會毫無緣由地出現。
波士頓麻省總醫院個人化醫療計畫的技術主管Sandy Aronson表示,他的團隊測試一款旨在幫助遺傳諮詢師查找DNA 變異相關文獻的應用程式時,該產品出現了「不確定性」——也就是說,當被問及同樣的在短時間內多次提問,卻得出不同的結果。
如果指標和標準很少,而且錯誤會因為奇怪的原因而出現,那麼機構該怎麼辦?投入大量資源。Shah說,在史丹佛大學,僅僅審查兩個模型的公平性和可靠性就花了 8 到 10 個月的時間和 115 個工時。
KFF 健康新聞採訪的專家提出了人工智慧監控人工智慧的想法,並由一些(人類)數據專家監控兩者。所有人都承認,這將需要投入更多的資金——考慮到醫院預算的現實情況和人工智慧技術專家的有限供應,這是一個艱鉅的要求。
Shah說:「看到我們正在融化冰山來建立一個模型來監測另一個模型,這真是太棒了。但這真的是我們想要的嗎?我們還需要多少更多的人?」
FYI, an in-depth playlist of video essays “Artificial Intelligence in Medicine" by Eric Strong for healthcare professionals
https://www.youtube.com/playlist?list=PLYojB5NEEakWLiPdydNPPlVFcMssRUucu
讚讚
當一種新科技進入任何領域,首先下意識抗拒者就是該領域的群體,尤其是該群體的菁英、巨擘與領導(人之常情),而其中又以AI為甚。
AI貌似精深與複雜,其實其最直接粗暴的作用就是「給一個最正確的答案或決策」。這種功能,舉凡人類生活相關,下棋、開車、判決、烹飪、寫詩、購物、翻譯、…等等,幾乎無所不包,當然也包括醫療。
好的診療是甚麼?無非就是「對症下藥」,而無論「對症」或者「下藥」,都屬於「給一個最正確的答案或決策」,限於人類的能力與人性的貪婪,誤診與高費,成為目前醫療最為大眾所詬病者(https://news.tvbs.com.tw/life/2746413《台人美國咳血「花500萬住院無用」!回台500元門診費就治好》 ),而對此醫療沉痾,AI正好可以「對症下藥」。
我早在1980年代接觸電腦,發現電腦神奇的搜尋功能,就在思考,如果資料庫能大到收錄一本字典,是否就可以做成一本電子英漢字典?果然不久之後真的就有電子英漢字典相關產品問世。同理,如果資料庫能收錄人類所有疾病病徵(症狀與各項檢查數據),是否就可以做成一本電子病徵疾病典?這已經是四十年前就可以做的,若經四十年不斷完善,至少「誤診」應該可以趨近於零了。
哪個英文很牛的人敢說背了整本英文字典?哪個名牌醫生敢說從不誤診?哈,不要忘了,這還只是四十年前電腦最基礎的搜尋技術,甚至還稱不上是AI。
目前AI科技與功能比起四十年前電腦搜尋技術已有天壤之別,早年我和電腦象棋對弈,往往勝多負少;現在就連大陸棋王許銀川或王天一面對AI棋手,根本毫無招架之力。關於AI圍棋Alphago的傳奇,諸多報導,不再贅述。雖然診療、下棋似乎風馬牛不相及,實則在關鍵點,二者並無不同,都是「給一個最正確的答案或決策」。
棋手有棋王,醫生可能也有醫王(名牌醫生),如果棋王打不過AI,醫王(名牌醫生)當然也贏不了AI,更遑論一般醫生或庸醫了。
關於AI診療,時間是一個關鍵。相對於人類,棋王、醫王會隨著不饒人的歲月而跌落王座,但是時間對於AI,卻是不斷促進其升級、積蓄其能力而永不休止的引擎。退步言之,就算AI診療目前尚有瑕疵(垃圾進->垃圾出),但是隨著時間不斷累積,黃金逐垃圾,未來必定越來越完善而臻於強大與完美。
總之,AI診療是時勢所趨,莫之能禦,醫療界如果抗拒AI診療,未來勢必被淘汰,成為時代的眼淚。
讚讚
我這篇文章並非要排斥AI診療,而是要指出它目前的缺陷以及未來的挑戰。
讚讚
引用通告: 甜點應該飯後馬上吃嗎?AI給互打答案 | 科學的養生保健