■研究の概要
千葉大学大学院薬学研究院の佐藤洋美准教授、樋坂章博教授(研究当時)らの研究グループは、臨床試験の観察期間を超える長期進行の慢性疾患を解析する方法として、機械学習による新しい手法(Statistical Restoration of Fragmented Time course – Machine Learning: SReFT注1)-ML)を開発し、これを糖尿病の解析に適用しました。これにより、今まで数百人単位でしか実施できなかった解析を、1万人以上の患者、かつ30種近くの検査値の解析へと拡張することに成功し、生涯にわたる腎機能の悪化や合併症のリスクが適切に予測されました。本研究成果は、今後様々な疾患の治療法開発や臨床予測モデルへの応用が期待されます。
本研究成果は米国臨床薬理学会の公式ジャーナルClinical and Translational Science(CTS)に2025年10月23日に公開され、同時に米国研究製薬工業協会(PhRMA)財団とCTSの属する米国臨床薬理学会(ASCPT)が共同実施したコンテストにて2025 PhRMA Foundation Trainee Challenge Award が授与されました。これは、臨床・トランスレーショナル科学における将来のリーダーとして認知されるべき若手研究者を表彰する賞参考資料1)で、特に2025年には「AI/機械学習」がテーマの論文から、論文の質・インパクト・新規性・テーマの時宜性が厳しく審査され、本論文を含む6論文の第一著者が受賞しました。

SReFTとSReFT-MLは、どちらも病気の長期的な進行を予測・理解するための方法。SReFT では技術として複雑な統計モデルを使うが、SReFT-MLでは「機械学習」を用いるため計算効率に優れ、大規模データの解析により適している。
■研究の背景
慢性疾患の長期にわたる進行を理解し、予測することは、治療戦略の決定や適切な臨床試験の実施において極めて重要です。特に2型糖尿病は数十年にわたって進行し、患者の予後や治療ニーズを推定するための貴重な洞察が求められています。しかし、臨床試験の観察期間は長くても数年単位であり、一般的な統計手法ではこのような短期間の情報から病期に特徴的な変化を検出することは難しく、個別化医療に反映されるべき情報の収集が困難という問題がありました。研究グループは、実際に数十年の疫学研究を実施する代わりに、疾患進行の数理モデルを設計することでこの課題に向き合い、複雑な非線形混合効果モデル理論に基づき長期的な疾患の推移を解析する強力な手法、SReFTを以前に開発しました。一方で、SReFTには大規模なデータに対して計算負荷が高すぎるという大きな課題もありました。そこで本研究では大幅に計算コストを抑えたSReFT-MLを開発し、大規模な臨床試験データに適用して、2型糖尿病の生涯にわたる進行モデルを構築することを目指しました。
■研究の成果
本研究は、米国の公開臨床試験リポジトリ組織であるBioLINCC注2)に登録されているACCORD試験注3)の糖尿病患者を対象に、約1万例の29種類に及ぶバイオマーカーの経時的なデータに対して、SReFT-MLを適用しました。SReFTとSReFT-MLは、どちらも断片的な患者個々の臨床観測データ(図1左)から、経過の連続性を仮定して発症からの経過時間(疾患時間)の順にデータを並び替え(図1中央)、最終的にバイオマーカーの生涯にわたる変化(図1右)を推定します。SReFT-MLにより、多数の患者データを同一の進行軸上に再配置し、患者ごとに異なる“疾患時間”を再構成することが可能になりました(図1、中央下段)。また、並び替えたデータに基づき、死亡率や合併症発症リスクの疾患進行に伴う変化も予測可能となりました。

上段:29種類のバイオマーカーのうち7種の抜粋。縦軸は各マーカーのスケール、横軸は疾患時間を示す。
下段:心血管死についての生存曲線とハザード(瞬間死亡率)の疾患時間による推移。
- 複数のバイオマーカーが、疾患時間に沿って一貫した変化パターンを示すことが確認されました。各バイオマーカーは標準血糖降下療法(赤)と強化血糖降下療法(青)別に推定されています。いずれの治療群も血糖コントロールされていたためHbA1cの変化はほとんど見えない様子が再現されています。血糖指標の変化が少ない一方で、特に疾患時間とともに腎機能 (eGFR)が低下、拡張期血圧(DBP)が低下、心拍数(HR)が低下、2型糖尿病の合併症として知られる神経障害スコアは増加するなど、臓器機能や生理状態の悪化する方向性の変化が特徴的でした(図2、上段)。尿中Creが変化していないのは、筋肉量の変化と相殺するための一般的現象です。
- 図2下段の青線は生存データを示しています。これは、観察対象が時間とともにどれくらい生き延びたかを描くカプランマイヤー曲線(生存曲線)と、同じデータからリスクの累積をなめらかにしたネルソン-アーレン曲線(ハザード曲線)から成り立っています。一方、オレンジ線はゴンペルツ関数という数理モデルで予測したリスクの変化を示しています。この再配置されたデータで作成された心血管死の生存曲線およびハザード推移からは、疾患時間に沿ってイベントリスクが30年スケールでダイナミックに変化する様子が捉えられました。
本研究結果から、SReFT-MLは従来の年齢や観察期間での解析と比較して、以下のような利点があるといえます。
- 疾患進行の“進度”を個別に推定することで、早期進行群と遅延進行群の識別が可能
- 疾患軸に沿った変化として、時系列的な介入効果やリスク因子の影響を評価可能
■今後の展望
臨床で得られる多数のデータから、患者の“疾患時間軸”を復元することが、より効果的な比較や予測の鍵になると考えてきました。今回のSReFT-MLの開発により、単なる観測時間では見落とされる疾患進行の共通パターンを明確にすることができ、今後の治療法開発や臨床予測モデルへの応用が期待されます。
■用語解説
注1)SReFT:疾患進行の共通軸を見出し、非線形混合効果モデルを用いて疾患時間とバイオマーカーや症状の変化を再配列・解析する手法。技術的には、SReFTは個人ごとのばらつきやパターンを含めて、データ全体の傾向を数学的にモデル化する方法「非線形混合効果モデル」を扱うのに対し、SReFT-MLは「機械学習」を用いるため計算効率に優れている。つまりSReFT-MLはより高速で、大規模な解析にも対応可能である。そのため、多数の患者やバイオマーカーを対象としたデータや、日常の医療現場で得られたデータ「リアルワールドデータ」の解析に適している。
注2)BioLINCC:米国国立衛生研究所に所属する国立心臓、肺、血液研究所 (NHLBI) の生物学的標本とデータリポジトリ情報センター。過去の一部の臨床試験の情報と生物学的標本を研究者に公開している。
注3)ACCORD試験:糖尿病患者の心血管イベントリスクに血糖コントロールが及ぼす影響を明らかにするため、強化血糖降下療法と標準血糖降下療法の比較が検討され、2010年に結果が報告された被験者1万人規模の大規模臨床試験。
■研究プロジェクトについて
この研究は、科学研究費助成事業(JP21K06797)、公益財団法人 武田科学振興財団 2023年度薬学系研究助成の資金助成を受けて行われました。なお、本研究を行なった研究者の現在の所属にはファイザーR&D合同会社、中外製薬株式会社、住友ファーマ株式会社、医薬品医療機器総合機構が含まれますが、本研究内容は研究者の個人的見解に基づくものであり、各研究者の現在の所属団体の公式見解を示すものではありません。
■論文情報
タイトル:Development of a Novel Machine Learning Method for Estimation of Life-Long Chronic Disease Progression and Its Application to Type 2 Diabetes
著者:Yamato Sano, Ryota Jin, Hideki Yoshioka, Yuki Nakazato, Hiromi Sato, Akihiro Hisaka
雑誌名:Clinical and Translational Science
DOI:10.1111/cts.70351.
■参考資料1
タイトル:AI/ML in Translation: PhRMA Foundation Trainee Challenge Award
雑誌:Clinical and Translational Science
DOI:10.1111/cts.70380.






