斯坦福大學 | 穩(wěn)定擴散能否解決醫(yī)學成像數(shù)據(jù)的空白?
指南者留學
2022-12-01 09:29:57
閱讀量:1313
<p>專攻罕見病的醫(yī)生只有這么多學習的機會。在這些領域,缺乏培訓學生所需的各種衛(wèi)生保健數(shù)據(jù)是一個關鍵挑戰(zhàn)。“當你在數(shù)據(jù)稀缺的環(huán)境中工作時,你的表現(xiàn)與經(jīng)驗相關——你看到的圖像越多,你就越好,”胸科放射科醫(yī)生、斯坦福醫(yī)學與成像人工智能中心(AIMI)博士后研究員Christian Bluethgen說。過去7年,他一直在研究罕見的肺部疾病。</p>
<p> </p>
<p>今年8月,當Stability AI向公眾發(fā)布其文本到圖像基礎模型“穩(wěn)定擴散”(Stable Diffusion)時,Bluethgen有了一個想法:如果你能將醫(yī)學上的真實需求與通過簡單的文本提示創(chuàng)建美麗圖像的便捷結(jié)合起來,會怎么樣?如果“穩(wěn)定擴散”(Stable Diffusion)能夠創(chuàng)建精確描述臨床背景的醫(yī)學圖像,就可以緩解訓練數(shù)據(jù)的差距。Bluethgen與Pierre Chambon合作,Pierre Chambon是斯坦福大學計算與數(shù)學工程研究所的研究生,也是AIMI的機器學習研究員,他們設計了一項研究,尋求擴展穩(wěn)定擴散的能力,以生成最常見的醫(yī)學圖像——胸部x光片。</p>
<p> </p>
<p>他們一起發(fā)現(xiàn),經(jīng)過一些額外的訓練,通用潛在擴散模型在創(chuàng)建具有可識別異常的人類肺部圖像方面表現(xiàn)得驚人地好。這是一個很有希望的突破,可能會導致更廣泛的研究,更好地理解罕見疾病,甚至可能開發(fā)新的治療方案。</p>
<p> </p>
<p><span class="h1"><strong>從通用到特定領域</strong></span></p>
<p><br />到目前為止,使用自然圖像和語言訓練的基礎模型在給定特定領域的任務時表現(xiàn)不佳。醫(yī)學和金融等專業(yè)領域有自己的行話、術語和規(guī)則,這些在一般的培訓數(shù)據(jù)集中沒有考慮到。但該團隊的研究有一個優(yōu)勢:放射科醫(yī)生總是準備一份詳細的文本報告,描述他們分析的每張圖像的發(fā)現(xiàn)。通過將這些訓練數(shù)據(jù)添加到他們的穩(wěn)定擴散模型中,該團隊希望該模型能夠在提示相關醫(yī)學關鍵詞時學會創(chuàng)建合成醫(yī)學成像數(shù)據(jù)。</p>
<p> </p>
<p>Chambon解釋說:“我們不是第一個訓練胸片模型的公司,但以前你必須用專門的數(shù)據(jù)集來做這件事,并且為計算能力付出很高的代價。”“這些障礙阻礙了許多重要的研究。我們想看看你是否可以引導這個方法,使用現(xiàn)有的開源基礎模型,只需要做一些細微的調(diào)整。”</p>
<p><img src="https://hai.stanford.edu/sites/default/files/inline-images/Fev6bXTUYAUGuiL.jpg" alt="Images of real chest x-rays and those created with Stable Diffusion" width="808" height="409" /></p>
<p><strong><span class="h1">三步過程</span></strong></p>
<p><br />為了測試穩(wěn)定擴散的能力,Bluethgen和Chambon檢查了模型架構的三個子組件:</p>
<p> </p>
<p>變分自編碼器(VAE),壓縮源圖像和解壓縮生成的圖像;</p>
<p><br />文本編碼器,它將自然語言提示轉(zhuǎn)換為自動編碼器可以理解的向量;</p>
<p><br />U-Net,它在潛在空間中作為圖像生成過程(稱為擴散)的大腦。</p>
<p><br />研究人員創(chuàng)建了一個數(shù)據(jù)集來研究圖像自動編碼器和文本編碼器組件。他們從兩個大型的公共數(shù)據(jù)集CheXpert和MIMIC-CXR中隨機選擇了1000張正面x光片。然后,他們添加了五張手工挑選的正常胸部x光照片和五張有明顯異常的照片(在這種情況下,組織之間的液體積聚,稱為胸腔積液)。這些圖像與一組簡單的文本提示相匹配,用于測試微調(diào)組件的各種方法。最后,他們從LAION-400M開放數(shù)據(jù)集中提取了100萬個通用文本提示的樣本(LAION-400M開放數(shù)據(jù)集是一個大規(guī)模的、非策劃的圖像-文本對集,設計用于模型訓練和廣泛的研究目的)。</p>
<p> </p>
<p>以下是他們在高水平上提出的問題和發(fā)現(xiàn):</p>
<p> </p>
<p>文本編碼器:使用來自Open AI的連接文本和圖像的通用領域神經(jīng)網(wǎng)絡CLIP,當給出像“胸腔積液”這樣的特定于放射學領域的文本提示時,模型能否產(chǎn)生有意義的結(jié)果?答案是肯定的——文本編碼器本身為U-Net提供了足夠的上下文,以創(chuàng)建醫(yī)學上準確的圖像。</p>
<p> </p>
<p>在自然圖像上訓練的穩(wěn)定擴散自編碼器能否在未壓縮后成功地呈現(xiàn)醫(yī)學圖像?結(jié)果,又是肯定的。“原始圖像中的一些注釋被打亂了,”Bluethgen說,“所以它不是完美的,但采用第一性原理的方法,我們決定標記為未來探索的機會。”</p>
<p>U-Net:考慮到其他兩個組件的開箱即用能力,U-Net能否根據(jù)提示創(chuàng)建解剖學上正確的圖像,并代表正確的異常集?在這種情況下,Bluethgen和Chambon認為需要進行一些額外的微調(diào)。“在第一次嘗試時,最初的U-Net不知道如何生成醫(yī)學圖像,”Chambon報告說。“但通過一些額外的訓練,我們能夠得到一些有用的東西。”</p>
<p> </p>
<p><span class="h1"><strong>一瞥未來</strong></span></p>
<p><br />在使用定量質(zhì)量指標和放射科醫(yī)生驅(qū)動的定性評估對提示進行了實驗,并對他們的努力進行了基準測試后,學者們發(fā)現(xiàn),他們表現(xiàn)最好的模型可以在合成放射科圖像上插入一個看起來很真實的異常,同時在深度學習模型上保持95%的準確率,該模型經(jīng)過訓練,可以根據(jù)異常對圖像進行分類。</p>
<p> </p>
<p>在后續(xù)工作中,Chambon和Bluethgen加大了培訓力度,使用了數(shù)萬張胸部x光片和相應的報告。最終的模型(名為倫琴,是倫琴和Generator的組合)于11月23日宣布,它可以創(chuàng)建更高保真度和更多多樣性的CXR圖像,并通過自然語言文本提示對圖像特征(如發(fā)現(xiàn)的大小和側(cè)邊性)提供更細粒度的控制。(預印本在這里。)</p>
<p> </p>
<p>雖然這項工作建立在以前的研究基礎上,但它是第一個著眼于胸部成像的潛在擴散模型的同類工作,也是第一個探索用于生成醫(yī)學圖像的新的穩(wěn)定擴散模型的工作。不可否認的是,當團隊反思這種方法時,出現(xiàn)了一些局限性:</p>
<p> </p>
<p>測量生成圖像的臨床準確性是困難的,因為標準指標不能捕捉圖像的有用性,所以研究人員增加了一名訓練有素的放射科醫(yī)生進行定性評估。</p>
<p><br />他們發(fā)現(xiàn)經(jīng)過微調(diào)的模型生成的圖像缺乏多樣性。這是由于用于調(diào)整和訓練U-Net的域的樣本數(shù)量相對較少。</p>
<p><br />最后,用于進一步訓練U-Net的放射學用例的文本提示是為研究創(chuàng)建的簡化單詞,而不是逐字逐句地從實際的放射科醫(yī)生報告中提取。Bluethgen和Chambon指出,未來的模型需要根據(jù)全部或部分的放射學報告進行調(diào)整。</p>
<p><br />此外,即使這種模式有一天能完美地運行,也不清楚醫(yī)學研究人員是否可以合法地使用它。Stable Diffusion的開源許可協(xié)議目前禁止用戶生成用于醫(yī)學建議或醫(yī)學結(jié)果解釋的圖像。</p>
<p> </p>
<p><strong><span class="h1">藝術還是x射線注釋?</span></strong></p>
<p><br />盡管目前的限制,Bluethgen和Chambon說,他們對他們能夠從第一階段的研究中生成的圖像感到驚訝。“輸入一個文本提示,然后以高質(zhì)量圖像的形式返回你所寫的內(nèi)容,這是一項不可思議的發(fā)明——對任何環(huán)境都是如此,”Bluethgen說。“看到肺部x光圖像重建得如此好,真是令人興奮。它們是現(xiàn)實的,而不是卡通的。”</p>
<p> </p>
<p>下一步,研究團隊計劃探索強大的潛在擴散模型如何能夠?qū)W習更廣泛的異常,開始在一張圖像中結(jié)合不止一種異常,并最終將研究擴展到除x射線和不同身體部位之外的其他類型的成像。</p>
<p> </p>
<p>Chambon總結(jié)道:“這方面的工作有很大的潛力。“有了更好的醫(yī)療數(shù)據(jù)集,我們或許能夠了解現(xiàn)代疾病,并以最佳方式治療患者。”</p>
<p> </p>
<p>“將預訓練的視覺語言基礎模型應用于醫(yī)學影像領域背景”于10月發(fā)表在預印本服務器ArXiv上。除了Bluethgen和Chambon,放射學教授Curt Langlotz和HAI的附屬教員,以及放射學助理教授Akshay Chaudhari建議并共同撰寫了這項研究。</p>
<p>斯坦福人工智能研究所的使命是推進人工智能研究、教育、政策和實踐,以改善人類狀況。學習更多的知識。</p>
<p> </p>
<blockquote>
<p>注:本文由院校官方新聞直譯,僅供參考,不代表指南者留學態(tài)度觀點。</p>
</blockquote>