張 勤:首先從技術上我要說明一下,DUCG 不是基于當前全世界流行的大數據機器學習,而是基于臨床專家的不確定因果知識。這里有一個誤區:將人工智能等同于大數據機器學習。無論是媒體的誤解,還是企業和學者的誤導,我認為這沒有反映學術的真實情況。人工智能發展 60 多年,跟我同歲,前 30 年主要是基于邏輯的,即基于規則的專家系統,但成功的極少,或者說最后還是沒辦法滿足實際應用的需求,原因就在于規則的碎片化。那種基于特定句式的一條條的碎片化規則多了之后,就會出現重疊、循環,矛盾,就難以管理了。這是第一個大問題。第二個大問題就是規則的不確定性傳播尚無嚴謹的數學理論。不確定性是現實中大量存在的。所以基于規則的專家系統逐漸淡出,讓位于能夠處理不確定性的大數據機器學習。
大數據機器學習主要是用加工后的大數據訓練機器,獲得一個可并行計算的非線性函數或模型,使輸入與輸出盡可能匹配。就全科臨床診斷而言,輸出就是疾病,輸入則是患者的癥狀、體征、風險因素、化驗結果、影像結果等等,至少有一萬個變量,每一個變量至少有陰性、陽性、未知三種狀態,一個輸入就是這些變量的一個狀態組合,這種組合比 3 的 1 萬次方還多,是一個天文數字。不同樣本空間的數據覆蓋的組合區域是不同的。大數據覆蓋的通常是三甲醫院病歷中的變量狀態組合,但基層的變量狀態組合往往與之不同,導致大數據機器學習模型在訓練和測試數據集上實現的輸入輸出匹配在基層失靈。這就是著名的泛化問題。我們的應用場景在基層,但我們學習的數據集來自三甲醫院。這種樣本空間的錯位導致實際使用中診斷正確率大幅降低。換句話說,大數據機器學習模型在測試集上的正確率不能代表實際應用的正確率,原因就在于泛化問題。我們可不可以用基層的數據來學習呢?理論上可以,實際上不可行。因為基層的數據難以保證診斷結論正確性和信息記載完備性,不同的基層情況也不同,即不同基層的樣本空間是不一致的,千變萬化。因此,解決之道在于避免泛化問題。怎么才能在全科臨床診斷中避免泛化問題呢?答案就是基于臨床專家的包含不確定性的醫學知識,而非匹配式或黑箱式的數據學習。知識是魯棒的,其正確性不以應用場景變化而不同,即知識不存在泛化問題——這就是我們原創的新一代人工智能 DUCG 的解決之道。
DUCG 的優點首先在于其無泛化問題,且診斷正確率高。我們構建的 DUCG 系統的正確率首先由自己驗證,然后再拿到第三方的三甲醫院去驗證,之后我們才投入實際應用,并在實際應用中驗證。我們目前已上線的知識庫都是基于主訴癥狀的跨科室的知識庫,覆蓋了咳嗽咳痰、腹痛、嘔血、發熱、胸痛、心悸、頭暈、頭痛、頸腰背痛、呼吸困難、下尿路癥狀、肥胖、婦科癥狀、兒童發熱等 36 個主訴癥狀,每個庫包含十幾到上百個能引起該主訴癥狀的疾病,DUCG 根據患者病情信息進行鑒別診斷,第三方測試驗證每個庫的正確率 95% 以上,其中少見病正確率 80% 以上?;鶎臃浅P枰獙ι僖姴〉恼_診斷,因為基層對常見病通常還能正確診斷,出問題的主要是少見病。少見病數量雖少,但病種繁多。如果存在大量漏診誤診,就難以讓患者放心,難以實現基層首診。
DUCG 的第二個優點是診斷結果和知識庫的可解釋性。哪些風險因素怎么影響疾病的發病率?疾病與癥狀、體征、實驗室檢查結果和影像學檢查結果存在什么因果關系?不確定性如何計量和表述?我們都采用圖形直觀的方式進行表達,清晰可解釋,包括計算方法也是全透明的,每個計算公式都具有清晰的物理意義,可證實或證偽。我們采用模塊合成方式來構建大型復雜 DUCG 知識庫,每個知識模塊不大,可解釋性強,更新可在模塊層面進行。模塊更新后將自動合成為新知識庫,即可用于疾病鑒別診斷。例如國家衛健委發布第五版新冠肺炎指南后,我們在一天內增加了新冠肺炎診斷模塊,合成知識庫后用于包括新冠肺炎在內的各種疾病的鑒別診斷,即不僅診斷患者是否患新冠肺炎,而且診斷若不是新冠肺炎的話是那種疾病、如何治療。如果只判斷是否新冠肺炎,那是篩查,而不是鑒別診斷。鑒別診斷就是要從眾多可能疾病中診斷出病人患的是什么病。這樣才能實現基層首診,有效防控疫情。
作為輔助診斷,人工智能醫療尚不能代替醫生看病,法律責任還要由醫生來負,那么診斷結果就必須要有可解釋性。否則醫生怎么相信智能系統的診斷是正確的呢?按照現在大數據的技術路線,難以解決可解釋性問題,包括模型本身和診斷結果的可解釋性。DUCG 具有強可解釋性。
DUCG 的第三個優點是能動態生成患者個體優化臨床檢查路徑。看病的過程其實是一個動態找尋病情信息并據此進行診斷的過程,并不是已經收集了病情信息后由智能系統來下是什么病的結論,也不是針對某個疾病考慮做什么檢查以收集病情信息,而是在不知道疾病的情況下基于已知病情信息確定下一步應當優先收集什么病情信息,遵循動態生成的患者個體優化臨床檢查路徑準確獲取病情信息,并做出正確診斷,由此實現精準醫療,大幅減少檢查項和節省看病費用。
DUCG 的以上三個全球領先的技術優點同時也是基層首診最需要的基本功能??傊?,DUCG 輔助診療平臺給臨床診斷帶來了顛覆性的沖擊,使基于經驗的臨床診斷變成了精密的科學計算,大大縮短了基層醫生診斷疾病的培訓過程,大幅提高了其診病水平。