IT之家 1 月 6 日消息,一晚的睡眠狀態(tài)中,或許潛藏著能提前數(shù)年預測重大疾病發(fā)生的線索。

糟糕的睡眠質(zhì)量通常會導致次日昏沉困倦,但它也可能在嚴重健康問題顯現(xiàn)前數(shù)年就發(fā)出預警信號。斯坦福大學醫(yī)學院的研究人員開發(fā)出一套全新的人工智能系統(tǒng),該系統(tǒng)能夠通過分析單晚睡眠產(chǎn)生的詳細人體信號,評估一個人患上百余種不同疾病的風險概率。
據(jù)IT之家了解,這套名為 SleepFM 的系統(tǒng),其訓練數(shù)據(jù)源自約 6.5 萬人的近 60 萬小時睡眠監(jiān)測記錄。這些記錄均來自多導睡眠監(jiān)測技術(shù) —— 這是一種深度睡眠檢測手段,會通過傳感器整夜追蹤受試者的腦電波活動、心律變化、呼吸模式、眼球運動、腿部動作以及其他多項生理信號。
睡眠研究:潛藏的海量數(shù)據(jù)寶庫
多導睡眠監(jiān)測技術(shù)被公認為研究睡眠機制最可靠的方法,通常需在專業(yè)實驗室中進行整夜監(jiān)測。研究人員發(fā)現(xiàn),除了用于診斷睡眠障礙外,這類監(jiān)測還能捕捉到人體在數(shù)小時連續(xù)狀態(tài)下的大量機能運轉(zhuǎn)信息。
“我們在開展睡眠研究時,會記錄數(shù)量驚人的生理信號?!贬t(yī)學博士、哲學博士埃馬紐埃爾?米格諾特表示。他是克雷格?雷諾茲睡眠醫(yī)學講席教授,同時也是這項新研究的共同資深作者。該研究成果于今日(1 月 6 日)發(fā)表在《自然 - 醫(yī)學》期刊上。“這相當于讓受試者在完全受控的狀態(tài)下,接受長達 8 小時的全身生理機能檢測。其數(shù)據(jù)量極為龐大,而傳統(tǒng)睡眠研究僅聚焦于其中一小部分信號,絕大部分數(shù)據(jù)的價值尚未被挖掘。人工智能技術(shù)的進步,首次讓全面分析這些完整數(shù)據(jù)流成為可能。研究人員指出,這是全球首例如此大規(guī)模地將人工智能應用于睡眠數(shù)據(jù)的研究?!?/p>
“從人工智能的研究視角來看,睡眠領(lǐng)域的探索相對匱乏。目前已有大量人工智能研究投入到病理學、心臟病學等領(lǐng)域,但盡管睡眠是人類生命中至關(guān)重要的一環(huán),針對它的人工智能研究卻寥寥無幾?!鄙镝t(yī)學數(shù)據(jù)科學副教授、該研究共同資深作者鄒嘉彥(James Zou,音譯)博士說道。
訓練人工智能“讀懂”睡眠信號
為了挖掘這些數(shù)據(jù)的潛在價值,研究團隊構(gòu)建了一個基礎模型 —— 這是一種能從海量數(shù)據(jù)集中學習通用規(guī)律,并適配多種不同任務的人工智能類型。以 ChatGPT 為代表的大型語言模型,采用的正是與之相同的技術(shù)原理,區(qū)別僅在于后者的訓練對象是文本數(shù)據(jù),而非人體生理信號。
SleepFM 的訓練數(shù)據(jù),是從多家睡眠診所患者處采集的 58.5 萬小時多導睡眠監(jiān)測數(shù)據(jù)。研究人員將每段監(jiān)測記錄切分為 5 秒的片段,這種處理方式與用詞匯訓練語言模型的思路十分相似。
“SleepFM 本質(zhì)上是在學習‘睡眠的語言’?!编u嘉彥解釋道。
該模型可同時分析多維度數(shù)據(jù)流,包括腦電波、心臟信號、肌肉活動、脈搏數(shù)據(jù)以及呼吸氣流,并從中學習這些信號之間的聯(lián)動規(guī)律。為實現(xiàn)這一目標,研究人員設計了一種全新的訓練方法,名為留一法對比學習。這種方法會暫時剔除某一類信號,然后讓模型僅依靠剩余的其他信號,嘗試還原被剔除的信號數(shù)據(jù)。
“我們在這項研究中取得的一項技術(shù)突破,是找到了整合這些不同類型數(shù)據(jù)模態(tài)的方法,讓它們能夠協(xié)同作用,共同‘解讀’睡眠的語言?!编u嘉彥說。
從睡眠模式到疾病風險預測
模型訓練完成后,研究人員首先在一些常見的睡眠相關(guān)任務中對 SleepFM 進行了測試。結(jié)果顯示,該模型在睡眠階段劃分和睡眠呼吸暫停嚴重程度評估方面的表現(xiàn),達到甚至超越了目前臨床應用的主流檢測系統(tǒng)。
隨后,研究團隊開展了一項更具挑戰(zhàn)性的測試:僅依靠睡眠數(shù)據(jù),預測受試者未來可能患上的疾病。為實現(xiàn)這一目標,他們將睡眠監(jiān)測記錄與對應患者的長期病歷數(shù)據(jù)進行了關(guān)聯(lián)匹配。其中一家合作診所提供了長達數(shù)十年的患者記錄,這為研究長期健康預后提供了難得的寶貴數(shù)據(jù)。
斯坦福睡眠醫(yī)學中心由已故的威廉?迪蒙特醫(yī)學博士、哲學博士于 1970 年創(chuàng)立,迪蒙特被譽為“睡眠醫(yī)學之父”。用于訓練 SleepFM(SleepFM)的最大患者群體包含約 3.5 萬名受試者,年齡跨度從 2 歲到 96 歲不等。他們的睡眠監(jiān)測數(shù)據(jù)采集于 1999 年至 2024 年間,并與部分患者長達 25 年的電子健康檔案進行了匹配。
借助這套整合后的數(shù)據(jù)集,SleepFM 對超過 1000 種疾病類別進行了分析,最終識別出 130 種僅通過睡眠數(shù)據(jù)就能實現(xiàn)較高準確率預測的疾病。其中,對癌癥、妊娠并發(fā)癥、循環(huán)系統(tǒng)疾病和精神疾病的預測效果最為顯著,預測性能指標一致性指數(shù)(C-index)均超過 0.8。
預測準確率的衡量標準
一致性指數(shù)(C-index)用于衡量模型對個體患病風險的排序能力,具體體現(xiàn)為模型能否準確預測兩名受試者中哪一位會更早出現(xiàn)特定健康問題。
“對于任意兩名受試者的組合,該模型都能對誰會更早患上某種疾?。ɡ缧呐K病發(fā)作)進行風險排序。一致性指數(shù)達到 0.8,意味著該模型的預測結(jié)果與實際情況的吻合度高達 80%?!编u嘉彥解釋道。
在針對具體疾病的預測中,SleepFM 表現(xiàn)尤為突出:帕金森?。ㄒ恢滦灾笖?shù) 0.89)、癡呆癥(0.85)、高血壓性心臟?。?.84)、心臟病發(fā)作(0.81)、前列腺癌(0.89)、乳腺癌(0.87)以及全因死亡風險(0.84)。
“令我們驚喜的是,該模型針對多種不同類型的疾病,都能做出具有參考價值的預測。”鄒嘉彥表示。
他還補充說,目前臨床上已經(jīng)在使用一些預測準確率相對更低的模型 —— 其一致性指數(shù)通常在 0.7 左右,例如用于預測患者對特定癌癥治療方案反應的系統(tǒng)。
解讀預測背后的邏輯
目前,研究團隊正致力于進一步提升 SleepFM 的預測準確率,并深入探究模型做出疾病預測的內(nèi)在機制。未來的模型版本可能會整合可穿戴設備采集的數(shù)據(jù),以獲取更多關(guān)于受試者日常生活習慣與睡眠模式的信息。
“模型并不會用人類語言向我們解釋它的預測邏輯?!编u嘉彥說,“但我們已經(jīng)開發(fā)出多種解讀技術(shù),能夠探究模型在針對某種特定疾病做出預測時,究竟參考了哪些關(guān)鍵信號?!?/p>
研究人員發(fā)現(xiàn),盡管心臟相關(guān)信號在心血管疾病預測中發(fā)揮了更大作用,腦電波信號對精神疾病預測的影響更為顯著,但單一信號的作用始終有限。只有整合所有數(shù)據(jù)源,才能實現(xiàn)最高的預測準確率。
“通過對比不同監(jiān)測通道的數(shù)據(jù),我們才能獲取預測疾病的最關(guān)鍵信息?!泵赘裰Z特表示。當人體不同系統(tǒng)的信號出現(xiàn)“不同步”狀態(tài)時 —— 例如大腦呈現(xiàn)睡眠狀態(tài),而心臟卻處于類似清醒時的活躍狀態(tài) —— 往往預示著健康風險。
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。