斯坦福大學 | 穩(wěn)定擴散能否解決醫(yī)學成像數(shù)據(jù)的空白?
指南者留學 2022-12-01 09:29:57 閱讀量:1313
<p>專攻罕見病的醫(yī)生只有這么多學習的機會。在這些領域,缺乏培訓學生所需的各種衛(wèi)生保健數(shù)據(jù)是一個關鍵挑戰(zhàn)。&ldquo;當你在數(shù)據(jù)稀缺的環(huán)境中工作時,你的表現(xiàn)與經(jīng)驗相關&mdash;&mdash;你看到的圖像越多,你就越好,&rdquo;胸科放射科醫(yī)生、斯坦福醫(yī)學與成像人工智能中心(AIMI)博士后研究員Christian Bluethgen說。過去7年,他一直在研究罕見的肺部疾病。</p> <p>&nbsp;</p> <p>今年8月,當Stability AI向公眾發(fā)布其文本到圖像基礎模型&ldquo;穩(wěn)定擴散&rdquo;(Stable Diffusion)時,Bluethgen有了一個想法:如果你能將醫(yī)學上的真實需求與通過簡單的文本提示創(chuàng)建美麗圖像的便捷結(jié)合起來,會怎么樣?如果&ldquo;穩(wěn)定擴散&rdquo;(Stable Diffusion)能夠創(chuàng)建精確描述臨床背景的醫(yī)學圖像,就可以緩解訓練數(shù)據(jù)的差距。Bluethgen與Pierre Chambon合作,Pierre Chambon是斯坦福大學計算與數(shù)學工程研究所的研究生,也是AIMI的機器學習研究員,他們設計了一項研究,尋求擴展穩(wěn)定擴散的能力,以生成最常見的醫(yī)學圖像&mdash;&mdash;胸部x光片。</p> <p>&nbsp;</p> <p>他們一起發(fā)現(xiàn),經(jīng)過一些額外的訓練,通用潛在擴散模型在創(chuàng)建具有可識別異常的人類肺部圖像方面表現(xiàn)得驚人地好。這是一個很有希望的突破,可能會導致更廣泛的研究,更好地理解罕見疾病,甚至可能開發(fā)新的治療方案。</p> <p>&nbsp;</p> <p><span class="h1"><strong>從通用到特定領域</strong></span></p> <p><br />到目前為止,使用自然圖像和語言訓練的基礎模型在給定特定領域的任務時表現(xiàn)不佳。醫(yī)學和金融等專業(yè)領域有自己的行話、術語和規(guī)則,這些在一般的培訓數(shù)據(jù)集中沒有考慮到。但該團隊的研究有一個優(yōu)勢:放射科醫(yī)生總是準備一份詳細的文本報告,描述他們分析的每張圖像的發(fā)現(xiàn)。通過將這些訓練數(shù)據(jù)添加到他們的穩(wěn)定擴散模型中,該團隊希望該模型能夠在提示相關醫(yī)學關鍵詞時學會創(chuàng)建合成醫(yī)學成像數(shù)據(jù)。</p> <p>&nbsp;</p> <p>Chambon解釋說:&ldquo;我們不是第一個訓練胸片模型的公司,但以前你必須用專門的數(shù)據(jù)集來做這件事,并且為計算能力付出很高的代價。&rdquo;&ldquo;這些障礙阻礙了許多重要的研究。我們想看看你是否可以引導這個方法,使用現(xiàn)有的開源基礎模型,只需要做一些細微的調(diào)整。&rdquo;</p> <p><img src="https://hai.stanford.edu/sites/default/files/inline-images/Fev6bXTUYAUGuiL.jpg" alt="Images of real chest x-rays and those created with Stable Diffusion" width="808" height="409" /></p> <p><strong><span class="h1">三步過程</span></strong></p> <p><br />為了測試穩(wěn)定擴散的能力,Bluethgen和Chambon檢查了模型架構的三個子組件:</p> <p>&nbsp;</p> <p>變分自編碼器(VAE),壓縮源圖像和解壓縮生成的圖像;</p> <p><br />文本編碼器,它將自然語言提示轉(zhuǎn)換為自動編碼器可以理解的向量;</p> <p><br />U-Net,它在潛在空間中作為圖像生成過程(稱為擴散)的大腦。</p> <p><br />研究人員創(chuàng)建了一個數(shù)據(jù)集來研究圖像自動編碼器和文本編碼器組件。他們從兩個大型的公共數(shù)據(jù)集CheXpert和MIMIC-CXR中隨機選擇了1000張正面x光片。然后,他們添加了五張手工挑選的正常胸部x光照片和五張有明顯異常的照片(在這種情況下,組織之間的液體積聚,稱為胸腔積液)。這些圖像與一組簡單的文本提示相匹配,用于測試微調(diào)組件的各種方法。最后,他們從LAION-400M開放數(shù)據(jù)集中提取了100萬個通用文本提示的樣本(LAION-400M開放數(shù)據(jù)集是一個大規(guī)模的、非策劃的圖像-文本對集,設計用于模型訓練和廣泛的研究目的)。</p> <p>&nbsp;</p> <p>以下是他們在高水平上提出的問題和發(fā)現(xiàn):</p> <p>&nbsp;</p> <p>文本編碼器:使用來自Open AI的連接文本和圖像的通用領域神經(jīng)網(wǎng)絡CLIP,當給出像&ldquo;胸腔積液&rdquo;這樣的特定于放射學領域的文本提示時,模型能否產(chǎn)生有意義的結(jié)果?答案是肯定的&mdash;&mdash;文本編碼器本身為U-Net提供了足夠的上下文,以創(chuàng)建醫(yī)學上準確的圖像。</p> <p>&nbsp;</p> <p>在自然圖像上訓練的穩(wěn)定擴散自編碼器能否在未壓縮后成功地呈現(xiàn)醫(yī)學圖像?結(jié)果,又是肯定的。&ldquo;原始圖像中的一些注釋被打亂了,&rdquo;Bluethgen說,&ldquo;所以它不是完美的,但采用第一性原理的方法,我們決定標記為未來探索的機會。&rdquo;</p> <p>U-Net:考慮到其他兩個組件的開箱即用能力,U-Net能否根據(jù)提示創(chuàng)建解剖學上正確的圖像,并代表正確的異常集?在這種情況下,Bluethgen和Chambon認為需要進行一些額外的微調(diào)。&ldquo;在第一次嘗試時,最初的U-Net不知道如何生成醫(yī)學圖像,&rdquo;Chambon報告說。&ldquo;但通過一些額外的訓練,我們能夠得到一些有用的東西。&rdquo;</p> <p>&nbsp;</p> <p><span class="h1"><strong>一瞥未來</strong></span></p> <p><br />在使用定量質(zhì)量指標和放射科醫(yī)生驅(qū)動的定性評估對提示進行了實驗,并對他們的努力進行了基準測試后,學者們發(fā)現(xiàn),他們表現(xiàn)最好的模型可以在合成放射科圖像上插入一個看起來很真實的異常,同時在深度學習模型上保持95%的準確率,該模型經(jīng)過訓練,可以根據(jù)異常對圖像進行分類。</p> <p>&nbsp;</p> <p>在后續(xù)工作中,Chambon和Bluethgen加大了培訓力度,使用了數(shù)萬張胸部x光片和相應的報告。最終的模型(名為倫琴,是倫琴和Generator的組合)于11月23日宣布,它可以創(chuàng)建更高保真度和更多多樣性的CXR圖像,并通過自然語言文本提示對圖像特征(如發(fā)現(xiàn)的大小和側(cè)邊性)提供更細粒度的控制。(預印本在這里。)</p> <p>&nbsp;</p> <p>雖然這項工作建立在以前的研究基礎上,但它是第一個著眼于胸部成像的潛在擴散模型的同類工作,也是第一個探索用于生成醫(yī)學圖像的新的穩(wěn)定擴散模型的工作。不可否認的是,當團隊反思這種方法時,出現(xiàn)了一些局限性:</p> <p>&nbsp;</p> <p>測量生成圖像的臨床準確性是困難的,因為標準指標不能捕捉圖像的有用性,所以研究人員增加了一名訓練有素的放射科醫(yī)生進行定性評估。</p> <p><br />他們發(fā)現(xiàn)經(jīng)過微調(diào)的模型生成的圖像缺乏多樣性。這是由于用于調(diào)整和訓練U-Net的域的樣本數(shù)量相對較少。</p> <p><br />最后,用于進一步訓練U-Net的放射學用例的文本提示是為研究創(chuàng)建的簡化單詞,而不是逐字逐句地從實際的放射科醫(yī)生報告中提取。Bluethgen和Chambon指出,未來的模型需要根據(jù)全部或部分的放射學報告進行調(diào)整。</p> <p><br />此外,即使這種模式有一天能完美地運行,也不清楚醫(yī)學研究人員是否可以合法地使用它。Stable Diffusion的開源許可協(xié)議目前禁止用戶生成用于醫(yī)學建議或醫(yī)學結(jié)果解釋的圖像。</p> <p>&nbsp;</p> <p><strong><span class="h1">藝術還是x射線注釋?</span></strong></p> <p><br />盡管目前的限制,Bluethgen和Chambon說,他們對他們能夠從第一階段的研究中生成的圖像感到驚訝。&ldquo;輸入一個文本提示,然后以高質(zhì)量圖像的形式返回你所寫的內(nèi)容,這是一項不可思議的發(fā)明&mdash;&mdash;對任何環(huán)境都是如此,&rdquo;Bluethgen說。&ldquo;看到肺部x光圖像重建得如此好,真是令人興奮。它們是現(xiàn)實的,而不是卡通的。&rdquo;</p> <p>&nbsp;</p> <p>下一步,研究團隊計劃探索強大的潛在擴散模型如何能夠?qū)W習更廣泛的異常,開始在一張圖像中結(jié)合不止一種異常,并最終將研究擴展到除x射線和不同身體部位之外的其他類型的成像。</p> <p>&nbsp;</p> <p>Chambon總結(jié)道:&ldquo;這方面的工作有很大的潛力。&ldquo;有了更好的醫(yī)療數(shù)據(jù)集,我們或許能夠了解現(xiàn)代疾病,并以最佳方式治療患者。&rdquo;</p> <p>&nbsp;</p> <p>&ldquo;將預訓練的視覺語言基礎模型應用于醫(yī)學影像領域背景&rdquo;于10月發(fā)表在預印本服務器ArXiv上。除了Bluethgen和Chambon,放射學教授Curt Langlotz和HAI的附屬教員,以及放射學助理教授Akshay Chaudhari建議并共同撰寫了這項研究。</p> <p>斯坦福人工智能研究所的使命是推進人工智能研究、教育、政策和實踐,以改善人類狀況。學習更多的知識。</p> <p>&nbsp;</p> <blockquote> <p>注:本文由院校官方新聞直譯,僅供參考,不代表指南者留學態(tài)度觀點。</p> </blockquote>
預約咨詢
預約咨詢
猜你喜歡
微信咨詢
掃一掃立即咨詢
App下載
下載指南者留學App
預約咨詢
電話咨詢
400-183-1832
回到頂部
預約咨詢
現(xiàn)在來設置你的賬號吧
只需要花不到一分鐘,之后便可以獲得更精準的推薦~
1
留學意向
2
基本意向
3
詳細背景
4
了解途徑
1.1 您期望申請學歷是
1.2 您期待的留學地區(qū)是多選
2.1 您的身份狀態(tài)是
2.2 您的目前學歷是
3.1 您的本科學校是
大陸本科
海外本科
3.2 您的學校名稱是
沒有查詢到相關的學校
查詢中...
3.3 您的專業(yè)名稱是
沒有查詢到相關的專業(yè)
查詢中...
4. 您了解到我們的途徑是
取消