發(fā)布時(shí)間: 2025-10-29 09:39:34
2025年10月3日,劉珂珂等人在《China CDC Wkly》上發(fā)表了一篇題為《Predicting Cycloplegic Spherical Equivalent Refraction Among Children and Adolescents Using Non-cycloplegic Data and Machine Learning—China, 2022-2024》的文章。本研究旨在開發(fā)和驗(yàn)證一種基于機(jī)器學(xué)習(xí)(ML)的模型,利用非睫狀肌麻痹屈光等效球鏡、眼軸長度、角膜曲率半徑、軸長/角膜曲率半徑比值和裸眼視力等參數(shù),預(yù)測5-18歲兒童的睫狀肌麻痹等效球鏡,為在無法實(shí)施睫狀肌麻痹的情況下進(jìn)行大規(guī)模屈光不正監(jiān)測提供實(shí)用工具。
一、研究背景
屈光不正篩查是中國兒童面臨的一項(xiàng)重大公共衛(wèi)生挑戰(zhàn),研究預(yù)計(jì)到2050年,中國城鄉(xiāng)兒童及青少年的近視率將處于高位,高度近視比例也顯著上升。睫狀肌麻痹驗(yàn)光是評(píng)估兒童屈光不正的金標(biāo)準(zhǔn),但由于實(shí)際操作中的限制和潛在副作用,難以在大規(guī)模學(xué)校篩查中廣泛實(shí)施。目前依賴的非睫狀肌麻痹驗(yàn)光存在較大變異性,尤其在調(diào)節(jié)力強(qiáng)的低齡兒童中。近年來,ML技術(shù)在眼科參數(shù)預(yù)測中展現(xiàn)出潛力,但其在橋接非睫狀肌麻痹與睫狀肌麻痹測量值方面的應(yīng)用,在基于人群的研究中仍探索不足。眼部生物參數(shù)是評(píng)估兒童遠(yuǎn)視儲(chǔ)備和屈光發(fā)育的重要客觀指標(biāo)。
二、數(shù)據(jù)來源
數(shù)據(jù)來源于2020年至2024年中國疾病預(yù)防控制中心組織的一項(xiàng)全國性兒童青少年眼部發(fā)育橫斷面調(diào)查,覆蓋北京、山西、遼寧、浙江、山東、河南、湖南、廣東、重慶和陜西等10個(gè)省級(jí)行政區(qū)。多數(shù)地區(qū)根據(jù)經(jīng)濟(jì)發(fā)展水平選取兩個(gè)城市,采用多階段整群抽樣方法從幼兒園至高中招募學(xué)生。所有參與者均接受標(biāo)準(zhǔn)化眼部檢查,包括使用同一型號(hào)臺(tái)式自動(dòng)驗(yàn)光儀進(jìn)行非睫狀肌麻痹和睫狀肌麻痹驗(yàn)光,睫狀肌麻痹使用0.5%托吡卡胺每5分鐘一次、共四次。僅分析右眼數(shù)據(jù)。最終納入58,252名參與者,訓(xùn)練集46,603人(80.0%),測試集11,649人(20.0%),兩組在年齡、性別、城鄉(xiāng)分布及眼部參數(shù)上均均衡?;颊呷虢M流程見補(bǔ)充圖S1。
三、研究方法
等效球鏡計(jì)算為球鏡度數(shù)加一半柱鏡度數(shù)。變量選擇通過單變量分析評(píng)估各預(yù)測變量與屈光誤差的關(guān)聯(lián),計(jì)算方差膨脹因子(VIFs)評(píng)估多重共線性,并應(yīng)用最小絕對(duì)收縮和選擇算子(LASSO)回歸篩選變量。最終納入分析的變量包括眼軸長度、角膜曲率半徑、軸長/角膜曲率半徑比值、裸眼視力和年齡;性別和地區(qū)雖具理論重要性但未在LASSO模型中保留。數(shù)據(jù)集按80:20隨機(jī)分為訓(xùn)練集和測試集。首先建立多元線性回歸模型作為基線,其在測試集上R2為0.79,均方根誤差(RMSE)為0.73屈光度(D),平均絕對(duì)誤差(MAE)為0.54 D,表明需更靈活算法。隨后采用隨機(jī)森林回歸和極端梯度提升(XGBoost)回歸構(gòu)建預(yù)測模型,性能通過R2、RMSE、實(shí)際-預(yù)測值散點(diǎn)圖和Bland–Altman圖評(píng)估。所有分析使用R軟件(4.5.1版)完成。
四、結(jié)果
1. 基線特征
表1總結(jié)了參與者的基線特征,顯示訓(xùn)練集和測試集在年齡、性別、城鄉(xiāng)分布以及各項(xiàng)眼部測量指標(biāo)上均具有良好平衡性。訓(xùn)練集與測試集的平均年齡分別為8.25±2.82歲和8.27±2.86歲,性別分布相似(男性占比51.7% vs 51.8%),城鄉(xiāng)居住模式接近(城市居民占比76.6% vs 76.1%)。兩組在非睫狀肌麻痹等效球鏡(-0.63±1.44 D vs -0.64±1.46 D)、睫狀肌麻痹等效球鏡(均為0.09±1.57 D)、眼軸長度(23.20±1.04 mm vs 23.21±1.05 mm)、角膜曲率半徑(7.78±0.26 mm vs 7.79±0.26 mm)、眼軸長度/角膜曲率半徑比值(均為2.98±0.12)和裸眼視力(均為4.85±0.28 logMAR)上均非常接近。
2. 模型性能比較
隨機(jī)森林和XGBoost模型均表現(xiàn)出強(qiáng)大的預(yù)測性能。如表2所示,隨機(jī)森林模型在測試集上達(dá)到了R2=0.88,RMSE為0.55 D,MAE為0.40 D;而XGBoost模型表現(xiàn)相當(dāng),R2=0.89,RMSE=0.54 D,MAE=0.39 D。訓(xùn)練集的性能更為優(yōu)異,隨機(jī)森林的R2高達(dá)0.94,RMSE為0.39 D;XGBoost在訓(xùn)練集上R2為0.90,RMSE為0.51 D。這些數(shù)值表明兩種機(jī)器學(xué)習(xí)算法均能較好地根據(jù)非睫狀肌麻痹數(shù)據(jù)預(yù)測睫狀肌麻痹等效球鏡,且XGBoost在測試集上的綜合表現(xiàn)略優(yōu)于隨機(jī)森林。
3. 特征重要性
通過置換特征重要性分析,兩種機(jī)器學(xué)習(xí)模型均識(shí)別出一致的關(guān)鍵預(yù)測因子。如圖1所示,在測試集中,對(duì)隨機(jī)森林模型最重要的四個(gè)特征依次是非睫狀肌麻痹等效球鏡、眼軸長度/角膜曲率半徑比值、眼軸長度和裸眼視力;XGBoost模型的特征重要性排序與此完全一致。在訓(xùn)練集中,這一排序也保持穩(wěn)定。角膜曲率半徑和年齡這兩個(gè)變量雖然也被納入模型,但其相對(duì)重要性顯著低于前四個(gè)核心預(yù)測因子。這一結(jié)果凸顯了結(jié)合屈光度和生物測量參數(shù)進(jìn)行綜合預(yù)測的價(jià)值。
4. 預(yù)測一致性
模型預(yù)測值與實(shí)際測量值之間的一致性通過散點(diǎn)圖和Bland-Altman圖進(jìn)行評(píng)估。如圖2所示,測試集中兩種模型的預(yù)測值與實(shí)際睫狀肌麻痹等效球鏡值在一致性線附近緊密分布,隨機(jī)森林(圖2A)和XGBoost(圖2C)的散點(diǎn)圖均顯示出良好的線性趨勢,表明預(yù)測精度較高。Bland-Altman分析(圖3)進(jìn)一步證實(shí)了這一點(diǎn):在測試集中,兩種模型95%的預(yù)測誤差均落在±2.0 D的界限內(nèi),且平均差異接近于零。盡管訓(xùn)練集(圖3B和D)的一致性界限比測試集(圖3A和C)更窄,這符合預(yù)期,但測試集的結(jié)果仍表明模型在未見數(shù)據(jù)上具有可接受的一致性和較小的殘余偏差。
五、總結(jié)
本研究成功構(gòu)建了基于隨機(jī)森林和XGBoost的ML模型,能夠利用非睫狀肌麻痹驗(yàn)光數(shù)據(jù)和眼部生物參數(shù)準(zhǔn)確預(yù)測兒童及青少年的睫狀肌麻痹等效球鏡。模型在測試集中表現(xiàn)出優(yōu)異的預(yù)測性能,明確了非睫狀肌麻痹等效球鏡、眼軸長度/角膜曲率半徑比值、眼軸長度和裸眼視力為關(guān)鍵預(yù)測因子。Bland-Altman分析證實(shí)了預(yù)測結(jié)果與真實(shí)值之間的良好一致性。該模型為在睫狀肌麻痹驗(yàn)光不可行的情況下,進(jìn)行大規(guī)模屈光不正監(jiān)測提供了準(zhǔn)確且實(shí)用的替代方案。







上一篇:三陰性乳腺癌識(shí)別和預(yù)后預(yù)測的人工智能系統(tǒng)的開發(fā)和驗(yàn)證:一項(xiàng)多中心回顧性研究
下一篇:10.20-10.26臨床預(yù)測模型研究頂刊快報(bào)