banner
ニュース センター
専門的な知識を身につけており、有能です。

医療制度

May 24, 2023

自然 (2023)この記事を引用

18,000 アクセス

604 オルトメトリック

メトリクスの詳細

医師は毎日、時間の制約がある重要な意思決定を行っています。 臨床予測モデルは、臨床イベントと手術イベントを予測することで、医師や管理者が意思決定を行うのに役立ちます。 既存の構造化データベースの臨床予測モデルは、データ処理やモデルの開発と展開が複雑なため、日常診療での使用が限られています1、2、3。 今回我々は、電子医療記録からの非構造化臨床メモによって臨床言語モデルのトレーニングが可能になり、抵抗の少ない開発と展開で多目的臨床予測エンジンとして使用できることを示します。 私たちのアプローチは、自然言語処理における最近の進歩4,5を活用して、医療言語用の大規模言語モデル (NYUTron) をトレーニングし、その後、幅広い臨床および運用上の予測タスクにわたって微調整します。 私たちは、30 日間の全原因再入院予測、院内死亡率予測、併存疾患指数予測、在院日数予測、保険否認予測という 5 つのタスクについて、医療システム内でのアプローチを評価しました。 NYUTron の曲線下面積 (AUC) は 78.7 ~ 94.9% であり、従来のモデルと比較して AUC が 5.36 ~ 14.7% 向上していることがわかります。 さらに、臨床テキストを使用した事前トレーニングの利点、微調整を通じてさまざまな施設への汎用性を高める可能性、および前向きの単一群試験でのシステムの完全な展開を実証します。 これらの結果は、医学において臨床言語モデルを使用して、医師と一緒に本を読み、治療の時点でガイダンスを提供できる可能性を示しています。

医師は毎日、膨大な量の情報の統合を必要とする難しい意思決定を行っています。 これらの医療上の決定を下すために必要な情報は、患者の病歴や検査レポート、画像レポートなど、さまざまな記録に分散しています。 しかし、医師が業務を遂行する際、これらの情報はすべて、最終的には患者のケアを文書化して要約するために医師によって書かれたメモに統合されます。

臨床予測モデルは、数十年にわたって存在してきたルール 6、7、8、9 や機械学習手法 10、11、12 から導出されることが多く、そのほとんどは電子医療記録 (EHR) または直接の臨床医から得られた構造化された入力に依存しています。入力。 この構造化された入力への依存により、データ処理だけでなく、モデルの開発と展開にも複雑さが生じます。そのことが、圧倒的多数の医療予測アルゴリズムがトレーニング、テスト、公開されているにもかかわらず、実際の医療への影響を評価するために展開されていない原因の一部となっています。世界の臨床ケア。 これはしばしば「ラストマイル問題」と呼ばれます (参考文献 1、2、3)。

現代の人工知能 (AI) 研究における最もエキサイティングな最近の開発の 1 つは、大規模言語モデル (LLM) です。 これらの大規模なニューラル ネットワーク (数百万、さらには数十億のパラメータを持つ) は、人間の言語の読み取りと解釈に依存する幅広い問題に対して影響力のある結果を得ることが示されています。 過去数年にわたって、エンコーダ モデル (BERT4 など) からデコーダ モデル (GPT3 など、参考文献 5) に至るまで、広範囲にわたるいくつかのスタイルの LLM が開発されてきました。 私たちは、LLM は医師が書いたメモを読むだけで医療予測分析におけるラストワンマイル問題を潜在的に解決できる可能性があると理論立てました。これにより、患者の医学的状態の包括的な説明に即座にアクセスして、幅広いケアの現場での意思決定サポートを提供できます。臨床および運用業務。

ここでは、メモの作成と電子注文を中心とした臨床ワークフローとリアルタイムで統合できる LLM ベースのシステムである NYUTron の開発、評価、導入、および将来に向けた評価の結果を紹介します。 私たちのアプローチは、すべての臨床的に有用なデータと医療専門家の意思決定プロセスが EHR 内の構造化または非構造化テキスト (たとえば、メモ、検査結果、研究に関するレポートなど) として見つかるという事実に基づいています。 私たちのアプローチは、自然言語処理における最近の進歩を活用しており、十分にスケールされた自己教師あり LLM が、非医療予測タスクにおいて強力に教師ありのアプローチよりも優れたパフォーマンスを発揮できることを示唆しています 4,5,13。 私たちは、NYU Langone Health System (「NYU Langone」) で仮説を調査しました。このシステムは、ニューヨークの多様な患者集団を抱える大規模な複数区の病院システムであり、4 つの都市病院と 350 の外来診療所を備えています。 私たちは、3 つの臨床タスクと 2 つの運用タスク (30 日間の全原因再入院予測、院内死亡率予測、併存疾患指数予測、入院期間 (LOS) 予測、保険否認予測) を含む 5 つのタスクからなる一連のタスクで NYUTron を評価します。 30 日間の再入院タスクを詳細に分析し、データの効率性、一般化可能性、導入可能性、潜在的な臨床影響の問題を検討します。 すべての医療予測分析 (以前の研究については補足情報セクション 1.1 を参照) を自然言語処理の問題として再考することにより、広範囲の医療予測タスクの汎用予測エンジンとして LLM を使用できることを示します。

言語モデルベースのアプローチには、データ収集、事前トレーニング、微調整、展開という 4 つのステップがあります。 最初のステップ (図 1a) では、NYU Langone EHR からラベルのない臨床ノートの膨大なセットと、タスク固有のラベル付き臨床ノート 5 つを収集しました。 他の研究とは異なり、私たちのデータセットは、さまざまな診療科の多様な患者集団を含む病院システム全体から取得されています。 私たちの大規模なラベルなしデータセットである「NYU Notes」は、4 つの病院の 387,144 人の患者からの 725 万件の臨床メモ (X 線写真、病歴、身体検査など) で構成され、2011 年 1 月から 2020 年 5 月までに厳選された 41 億語のコーパスになります。当社のラベル付き微調整セットの 1 つには、タスク固有のラベル (2 ~ 4 クラス) が付いた 1 ~ 10 年分の入院患者の臨床メモ (患者数 55,791 ~ 413,845 人、5,100 ~ 8,700 万語) が含まれています。 データセットの統計については、拡張データ表 1 を参照してください。

a, NYU Langone EHR に 2 種類のデータセットを問い合わせました。 事前トレーニング データセットである NYU Notes には、10 年間の入院患者の臨床ノート (患者 387,144 人、41 億語) が含まれています。 5 つの微調整データセットがあります。 それぞれには、タスク固有のラベル (2 ~ 4 クラス) が付いた 1 ~ 10 年分の入院患者の臨床ノート (患者数 55,791 ~ 413,845 人、5,100 ~ 8700 万語) が含まれています。 b. MLM タスクを使用して、NYUTron と呼ばれる 1 億 900 万パラメータの BERT のような LLM を EHR 全体で事前トレーニングし、EHR 内に含まれる医療言語の事前トレーニング済みモデルを作成しました。 c. その後、事前トレーニングされたモデルを特定のタスク (たとえば、30 日間の全原因再入院予測) で微調整し、保持されている遡及データで検証しました。 d. 最後に、微調整されたモデルは高速フォーマットに圧縮され、推論エンジンにロードされました。推論エンジンは NYU Langone EHR と連携して、治療医師が署名した退院ノートを読み取ります。

2 番目と 3 番目のステップ (図 1b、c) では、BERT (Bidirectional Encoder Representation with Transformer) として知られる双方向エンコーダ モデルとマスク言語モデリング (MLM) 目標を使用して、ダウンストリーム タスクごとに LLM を事前トレーニングし、微調整しました。検証損失が頭打ちになるまでは、NYU Notes データセット11 に基づいて実行されました。 MLM の目的は、臨床ノート内の単語またはサブワードをランダムにマスクし、マスクされた単語を正しく埋めるように言語モデルをトレーニングします。 次に、微調整データセットを使用して、事前トレーニングされたモデル (「NYUTron」と呼ばれる) を微調整し、臨床ノートを使用した事前トレーニングで学習した関係を使用してタスク ラベルを予測しました。

4 番目のステップ (図 1d) では、NYU Langone EHR と接続する高性能推論エンジン NYUTriton に最良のモデルをデプロイしました。 導入により、ポイントオブケアでリアルタイムの LLM ガイド付き推論が可能になりました。 単群非介入前向き試験において、我々は現実世界の環境における 30 日再入院予測における NYUTron のパフォーマンスを検証し、潜在的な臨床的影響を評価しました。

NYUTron の適用範囲の広さを評価するために、5 つのタスクに対する NYUTron のパフォーマンスを遡及的に評価しました。 私たちは完全なデータセットでトレーニングし、2 つのテスト セットでパフォーマンスを評価しました。(1) ランダム テスト セット (トレーニング データと同じ時間からサンプリングされた臨床ノート) と (2) 時間的テスト セット (将来のデータからサンプリングされた臨床ノート)。トレーニングデータ)。 一時的なテスト セットは、推論データがトレーニング データの将来から取得される展開シナリオによりよく似ています。 図 2a に示すように、一連のタスクは 3 つの臨床タスクと 2 つの運用タスクで構成されています。 私たちは NYUTron を構造化ベースラインと比較しました。これは、従来の臨床予測モデルで使用される構造化特徴を極端な勾配ブースト ツリー 14 モデルに転送します。

a, 5 つのタスクには、3 つの臨床タスクと 2 つの操作タスクが含まれます。 b. 再入院予測に関して、NYUTron の AUC 中央値は 79.9% ± 0.168% で、5.36% 改善しました。 院内死亡率予測では、NYUTron の AUC 中央値は 94.9% ± 0.168% で、7.43% 改善しました。 併存疾患指数の補完によると、NYUTron の OVR 中央値 AUC は 89.4% ± 0.275% でした。 混同行列を右側に示します。 c. ビン化された LOS 予測では、NYUTron の AUC 中央値は 78.7% ± 0.179% で、構造化ベースラインから 12.3% 改善しました。 保険否認予測に関して、NYUTron の AUC 中央値は 87.2% ± 0.246% で、14.7% 改善しました。 b、c の場合、エラー バーの高さは AUC 中央値、エラー バーの半値幅は 1 sd です。灰色の点は、個別のランダム シードを使用した n = 5 の実験からの個々のデータ ポイントです。

NYUTron は、複数の臨床タスクおよび運用タスクに拡張できます。 図 2b と図 2c は、予測タスク (院内死亡率、再入院、LOS、保険否認) において、NYUTron の曲線下面積 (AUC) が 78.7 ~ 94.9% で、5.36 ~ 14.7% 改善したことを示しています。従来の臨床予測モデルからの AUC の値。 併存疾患指数補完タスクでは、NYUTron の AUC 中央値は 89.4% ± 0.275% でした。 まず、4 つのタスクにわたる結果を提示し、データ効率、モデルの一般化可能性、現実世界の環境での展開の問題に対処する再入院予測に焦点を当てて結論を導きます。

NYUTron は、入院時の院内死亡リスクを予測し、併存疾患指数を推定することができます。 院内死亡率予測の課題は、現在の入院患者の遭遇中に患者が死亡する可能性を (入院時に) 推定することでした。 図 2b は、院内死亡率予測において、NYUTron の AUC 中央値が 94.9% ± 0.168% であり、簡易急性生理学スコア (SAPS2)15 および急性生理学および慢性健康評価に基づく構造化ベースラインから 7.43% 改善したことを示しています。 (APACHE2)年齢や平均心拍数など16の機能。 併存疾患指数の補完のタスクは、慢性疾患について利用可能な構造化された特徴がないチャールソン併存疾患指数 (CCI) 17 を (入院時に) 予測することでした。 データセットの 22% に CCI スコアが欠けており、これはドキュメントの改善が必要な既知の領域であったため、これをデータ代入の問題として捉えました (詳細については補足情報セクション 2.3 を参照)。 元の論文の重大度のグレードに応じて、インデックスを 4 つのビンに離散化しました (0、なし、1 ~ 2、軽度、3 ~ 4、中程度、≧5、重度)。 図 2b は、併存疾患の補完において、CCI スコアが 0 の患者を識別する際に、NYUTron の AUC 中央値が 89.4% ± 0.275%、精度が 88% であったことを示しています。

NYUTron は、運用エンドポイントに使用したり、入院患者の LOS や入院時の保険請求拒否を予測したりすることもできます。 LOS 予測のタスクは、患者が入院する可能性のある日数の範囲を (入院時に) 予測することでした。 LOS を 4 つのビン (0 ~ 25% 分位数、25 ~ 50% 分位数、50 ~ 75% 分位数、>75% 分位数) に離散化しました。 図 2c は、LOS 予測に関して、NYUTron の 1 対残り (OVR) AUC 中央値が 78.7% ± 0.179% であり、「リスボン ポルトガル」機能の利用可能なサブセットを使用した構造化ベースラインから 12.3% 改善したことを示しています18 。 保険請求拒否予測のタスクは、遭遇に対して提出された保険請求が受け入れられるか、最初は拒否されるかを (入院時に) 予測することでした。 図 2c は、保険拒否予測について、NYUTron の AUC 中央値が 87.2% ± 0.246% であり、年齢や保険会社などの利用可能な「請求フォーム」機能のサブセットを使用した構造化ベースラインから 14.7% 改善したことを示しています19。 NYUTron は、同様のパフォーマンスで入院記録と退院記録の両方からさまざまな種類の拒否を予測することもできます (補足情報セクション 2.2)。

NYUTron のパフォーマンスをより深く理解するために、30 日間の全原因再入院予測の詳細な分析を実施しました。 再入院予測のタスクは、患者が 30 日以内に病院に戻ってくる可能性を (退院時に) 予測することであり、医療情報学の文献でよく研究されている問題です (再入院予測の詳細については、補足情報セクション 2.1 を参照してください)タスク)。 図 2b は、30 日間の全原因による再入院予測において、NYUTron の AUC 中央値が 79.87% ± 0.168% であり、LACE20 機能 (LOS、入院急性度のニーモニック) を使用した構造化ベースラインから 5.36% 改善したことを示しています。 、チャールソン併存疾患指数および過去 6 か月間の救急外来受診数)。 我々は、遡及的および前向きの両方の設定で 5 つの追加評価を実行しました: (1) 無作為分割から抽出された 20 人の患者症例の再入院を予測するための 6 人の主治医とのヒト比較、(2) 患者のデータに関する NYUTron のスケーリング特性の研究。異なる数の微調整されたデータ ポイントを使用してどの NYUTron モデルと他のモデルが比較されたか、(3) さまざまな場所からの事前トレーニング、微調整、およびテスト データを使用した NYUTron のクロスサイト一般化可能性の評価、(4) 将来の単一の予測データアーム、NYUTron の導入可能性を評価するための非介入研究、および (5) 臨床的影響を評価するための NYUTron の将来のパフォーマンスに関する医師パネルによる定性的評価。

少数のサンプルでは、​​NYUTron は 30 日以内の再入院を予測するという点で、少数の医師グループと競合しました。 私たちは、退院時に 30 日間の全原因による再入院を予測するためのベースラインの難易度を確立するために、さまざまな年功レベルの医師 6 人のグループを NYUTron と直接比較してテストしました。 退院概要 (n = 20、陽性例 11 例、陰性例 9 例を含む) がランダムに抽出され、オンライン評価プラットフォームにアップロードされました。 医師のパフォーマンス中央値はNYUTronよりも悪かった(図3a)。 医師とNYUTronの場合、偽陽性率(FPR)の中央値は11.11%でしたが、真陽性率(TPR)の中央値は医師の50%であったのに対し、NYUTronの81.82%でした。 医師の F1 スコア中央値は 62.8%、実質的な分散は 22.2% でしたが、NYUTron の F1 スコア中央値は 77.8% でした。

a, 無作為に分割して抽出した 20 例について、NYUTron の TPR および FPR を 6 人の医師の TPR および FPR と比較しました。 医師のパフォーマンスの中央値(緑の丸)と比較した場合、NYUTron(オレンジ色の三角形)はより高いTPRと同じFPRを示しました。 AUC の誤差帯域の範囲は最小から最大まであり、オレンジ色の十字は、考えられるすべてのしきい値を使用した TPR と FPR を示します。 検証データに基づいて NYUTron のしきい値を選択しました。 b. 微調整例の数を増やした、さまざまな事前トレーニング済み LLM の時間テスト AUC の比較。 簡単にするために、分散を省略し、5 回の試行の中央値のみをプロットします。 微調整サンプルがまばらな AUC は分散が大きいため、サンプル 100 個と 1,000 個でのパフォーマンス中央値の違いはそれほど顕著ではありません (サンプル 100 個では分散が 4.26% ~ 9.56%、サンプル 1,000 個では分散が 0.44% ~ 9.46% でした)。 。 例をより細かく調整すると、AUC の分散が減少します。 0.75 の水平破線は、パフォーマンスのしきい値に対応します。 拡張データの代替プレゼンテーションを参照してください。 図 7. c、d、さまざまなサイトからの事前トレーニング、微調整、およびテスト データを使用した NYUTron の時間テスト パフォーマンス。 マンハッタン テストとブルックリン テストの両方で、ローカル微調整に対応する列は、外部微調整を使用した場合よりも優れたパフォーマンスを示します。 c、d の各エントリは、個別のランダム シードを使用した n = 5 回の実験の平均 ± 1 sd として表示されます。

ランダムな分割は、テスト データがトレーニング データの将来から取得される展開シナリオとは似ていません。 したがって、展開をシミュレートするために一時的な分割を作成し、ランダムな分割と比較してテスト統計に有意な差が観察されました (ランダム テストの AUC は 84.13% でしたが、一時的なテストの AUC は 80.2%)。この 2 番目のテスト フェーズの重要性が確認されました (拡張データ図 1 でさらに比較します)。

NYUTron は、従来のモデルや他の LLM と競合します。 私たちは、時間分割でのテスト パフォーマンスを従来のモデルおよび 4 種類の LLM のテスト パフォーマンスと比較することで、NYUTron の有効性を評価しました。 完全なデータセットで微調整した場合、NYUTron は最も高い AUC を示し (図 3b)、AUC 中央値は 79.87% ± 0.17% で、これは臨床 + ウェブウィキ + バイオ AUC の 80.14% ± 0.26% と同様でした。 非臨床テキスト (web-wiki+bio および web-wiki) で事前トレーニングされた LLM と比較して、NYUTron の AUC 中央値は 2.37% ~ 3.23% 高かった。 構造化された特徴 (レース + xgb) を使用する従来のモデルと比較して、NYUTron の AUC は 5.36% 高くなりました。 従来の自然言語処理 (NLP) 埋め込み (tf-idf+xgb) を使用したモデルと比較して、NYUTron の AUC 中央値は 12.8% 高くなりました (拡張データ図 2a)。

非構造化臨床ノートでトレーニングされた LLM は、従来の構造化モデルよりもデータに合わせて拡張性に優れています。 lace+xgb と比較して、NYUTron はラベル付きサンプルの量が増加することで恩恵を受け、完全なデータセットで微調整した場合に優れた AUC を達成しました。 図 3b は、lace+xgb (黄色の破線) と NYUTron (緑色の実線) が 100 例と 1,000 例で同様の AUC を示していることを示しています。 ただし、NYUTron の AUC はサンプルが増えるにつれて一貫して改善しましたが、lace+xgb の AUC は頭打ちになり始めました (100 個から 1,000 個のサンプルでは、​​NYUTron の AUC は 7.27% 増加しましたが、lace+xgb の AUC は 3.98% 増加しました。10,000 個から 392,336 個のサンプルでは、​​NYUTron の AUC は増加しました) 2.15% 増加しましたが、lace+xgb は 0.63% 増加しました)。 完全な微調整データセットを使用すると、NYUTron は、lace+xgb よりも 7.04% 高い AUC を実現しました。

ラベルのない大量の臨床ノートに関する事前トレーニングは、パフォーマンスに貢献します。 ランダムに初期化された LLM (random-init) と比較して、NYUTron はより少ない例からより適切に一般化することを学習します。 図 3b は、NYUTron では約 75% の AUC を達成するために 10,000 個のサンプルが必要だったのに対し、random-init では 100,000 個のサンプルが必要であることを示しています。 また、別の臨床予測タスクでも同様の傾向が観察されました。NYUTron は、臨床的な名前付きエンティティにおいて、ランダム初期化モデル (F1 スコアが 36.83% 高い) および非臨床事前学習モデル (F1 スコアが 2.06% ~ 3.73% 高い) よりも優れたパフォーマンスを示しました。 2012 i2b2 チャレンジの認識 (NER) タスク (拡張データ図 2b)。

事前トレーニング コーパスのドメインと微調整コーパスのドメインを一致させることは有益です。 図 3b は 3 つの証拠を示しています。非臨床テキスト (Web-wiki および Web-wiki+bio) で事前トレーニングされた LLM は、random-init と同様のパフォーマンスを示しました。 別の LLM、web-wiki+bio+clinical は、NYUTron と同様のパフォーマンスを示しました。 第三に、非臨床テキスト (Web-wiki および Web-wiki+bio) で事前訓練された LLM と比較して、臨床的に事前訓練された LLM (NYUTron および web-wiki+bio+clinical) は、少ない例からよりよく一般化することを学習しました。 トレーニング前コーパスの比較については、拡張データの図 3 を参照してください。

事前トレーニング中にドメインが厳密に一致することは、微調整中の低データ設定で特に有益です。 私たちは、異なる病院システム、NYUTron (NYU Langone Health) と web-wiki+bio+clinical (フロリダ大学) の臨床テキストで事前トレーニングされた 2 つの言語モデルを比較しました。 図 3b は、1,000 件の例で、NYUTron (ドメイン内モデル) が Web-wiki+bio+clinical (ドメイン外モデル) よりも NYU Langone 再入院予測の AUC が高かったことを示しています。 特に、微調整の例の数が増加するにつれて、NYUTron の利点はなくなりました。これは、ドメイン内で十分な微調整を行うことで、ドメイン外で事前トレーニングされたモデルを適応させることができることを示唆しています。

臨床言語モデルは、局所的な微調整を通じてさまざまな部位への一般化可能性を示します。 臨床環境全体にわたる NYUTron の堅牢性を調査するために、NYU Langone Health System 内で地理的に離れた 2 つの病院を選択しました。 簡潔にするため、マンハッタンのティッシュ病院を「マンハッタン」、ニューヨーク大学ランゴン病院 – ブルックリンを「ブルックリン」、ニューヨーク大学ランゴン医療システム内の 4 つの病院すべて (マンハッタン、ブルックリン、ニューヨーク大学ランゴン整形外科病院、ニューヨーク大学ランゴン病院 – ロングアイランド) と呼びます。 )「すべてのサイト」として。 異なるサイトで事前トレーニングされた 3 つの LLM を検討しました。1 つ目はマンハッタンで事前トレーニングされ、2 つ目はブルックリンで事前トレーニングされ、3 つ目はすべてのサイトで事前トレーニングされました。 事前トレーニングされた LLM ごとに、マンハッタンまたはブルックリンの再入院データセットを使用して LLM を微調整しました。 最後に、微調整された LLM に、マンハッタンまたはブルックリンからの退院記録に基づいて再入院を予測するよう依頼しました。 図 3c、d は、すべてのサイトで事前トレーニングされた LLM が「テスト マンハッタン」と「テスト ブルックリン」の両方で最高のパフォーマンスを示したことを示しています。 すべての LLM について、ローカル データセットを使用した微調整 (「マンハッタン/ブルックリンの微調整」) は、別のサイトでの微調整 ('ブルックリン/マンハッタンを微調整します)。 したがって、すべてのサイトからのデータを使用して事前トレーニングし、ローカルで微調整することがパフォーマンスを最適化する最良の方法です。 追加の分析を実行して、NYUTron がローカル微調整を通じて異なる医療システムに一般化できることを示し (補足​​情報セクション 4.1 および拡張データ図 4)、トレーニング サイトに関する NYUTron と lace+xgb の堅牢性を比較しました (補足情報セクション 4.2)。 また、NYUTron はさまざまな診療科やさまざまな人口統計を持つ患者からのメモに敏感であり、そのパフォーマンスは月単位で変動することもわかりました (拡張データ図 5 および 6)。 不一致の原因は非常に複雑である可能性があり (補足情報セクション 4.3 で説明)、今後の研究で研究されます。

開発環境外で NYUTron のパフォーマンスを評価するために、遡及的トライアルの結果に基づいてモデルを選択し、2022 年 1 月から 4 月まで前向きトライアルを実行しました。この期間中、NYUTron を高速化された形式でデプロイし、推論にロードしました。このエンジンは EHR とインターフェースし、治療医師が署名した退院メモを読み取ります。 この期間中に、29,286 人が退院し、3,271 人 (11.17%) の患者が 30 日以内に復帰しました。 NYUTron は、3,271 件の再入院のうち 2,692 件 (再現率 82.30%) を 20.58% の精度で予測しました。 図 4a は、NYUTron の AUC が 78.70% であることを示しています。

a、NYUTron は、前向き単群非介入試験で 78.70% の AUC を示し、再現率は 82.3%、精度は 20.6% でした。 b. 6 人の医師からなるパネルが、潜在的な臨床的影響について NYUTron の結果を検討しました。 NYUTronによって首尾よく特定された100件の再入院のうち、61%は計画外の再入院であり、50%はCMSガイドラインに基づいてペナルティが科せられる可能性があり、多専門医師委員会の一致した意見によれば、27%は退院時に予防可能であった。将来の裁判からの症例を検討した人。 再入院ラベルと観察されたパフォーマンスの実際的な重要性については、補足情報セクション 2.1 を参照してください。

潜在的な臨床的影響を評価するために、6人の医師からなるグループは、試験終了後にNYUTronによって捕捉された無作為に抽出された再入院症例100例の定性的評価を実施した。 医師の検討により、NYUTron による真陽性予測の一部は臨床的に意味があり、予防可能な再入院であることが示唆されました。 全体として、再入院すると予測された再入院患者は、病院で死亡する可能性が 6.02 倍高く、入院期間が 2.93 日長くなりました(P < 10−4)。 図4bに示すように、予測症例の61%は計画外であり、これらの計画外再入院の平均予測確率は計画再入院の平均予測確率よりも低かった(31.9%±31.1%対82.1%±27.3%、P<10−4) )。 計画外の再入院のうち、19.67% の患者が再入院時に有害事象または死亡を経験し、これらの事象の 50% は医師委員会によって予防可能であると考えられました。 財政的な観点から見ると、メディケア・メディケイド・サービスセンター(CMS)のガイドラインによれば、計画外の再入院の81.9%に罰則が科せられることになる。 処罰対象となるケースのうち、54%は予防可能と考えられた。 注目すべきことに、予防可能な再入院27人のうち3人がクロストリディオイデス・ディフィシル腸炎に罹患していた。クロストリディオイデス・ディフィシル腸炎は、65歳以上の11人に1人が1か月以内に死亡する伝染性の医療関連細菌感染症である21。

臨床使用向けに設計および検証された医療システム規模の LLM である NYUTron の開発、トレーニング、検証、展開における私たちの取り組みを紹介します。 我々は、3 つの臨床タスク (入院患者死亡率予測、併存疾患指数予測、再入院予測) と 2 つの運用タスク (保険金請求拒否予測と入院患者 LOS 予測) における NYUTron のパフォーマンスを実証します。 また、再入院予測の臨床的および運用上の重要性と、医療情報学の文献に十分に文書化された歴史があるため、再入院予測の詳細な分析も実施しました。 私たちは、単一の予測を生成するために非構造化テキスト入力のみに依存するエンコーダー アーキテクチャ (BERT) を使用するアプローチの柔軟性を美徳とみなしています。また、複数の側面を支援するために、この基本的なパラダイムに基づいて構築される将来の多くのタスクが予想されます。患者ケアと病院業務の自動化。

導入時の倫理的考慮事項は、既存の医療ワークフローとのシームレスな統合により、医師や管理者が NYUTron の予測に過度に依存し、望ましくない結果を招く可能性があることです。 人間と AI の相互作用を最適化するには、さらなる研究が必要であり、バイアスの原因やその他の予期せぬ障害点に対する標準化された評価の開発も必要です。 臨床ノートのトークンレベルの摂動を通じて言語モデルの感受性パターンと医師の感受性パターンの類似性を測定するという私たちのグループの継続的な研究 22 は、そのような多くの取り組みの 1 つです。

大規模な生成型 LLM は、医療ワークフローに統合するユニークな機会も提供します。 ただし、これらはユーザー入力とプロンプト23に大きく依存しており、基本的な臨床タスクや運用タスクの自動化にはそれほど簡単には適応できません。 既存の医療情報学ワークフローへのシームレスな統合は、私たちのアプローチの長所であり、この取り組みがラストワンマイルの問題に対する柔軟な解決策として提示されることを願っています。つまり、あらゆる構造化データ アルゴリズムを再概念化し、このフレームワーク内で迅速にプロトタイプを作成できます。 このようなシステムが医師の行動や患者に及ぼす影響を監視する一環として、人間と機械の相互作用を捕捉し、時間の経過とともにモデルがドリフトするリスクを軽減するために、一定レベルの継続的な監視が必要です。 このようなシステムの実装については、補足情報セクション 5 で説明します。

高度にカスタマイズされたデータに基づいてトレーニングされた、より小規模 (<10 億パラメータ) のエンコーダ言語モデルを使用するという私たちのアプローチは、大規模で非効率なデータで事前トレーニングされた大規模 (>10 億パラメータ) の生成モデルに焦点を当てた言語モデル研究の現在の傾向からの顕著な逸脱を表しています。 - 固有のデータセット。 それにもかかわらず、この研究で使用されているような比較的小さな LLM であっても、事前トレーニングにはかなりの計算時間が必要です。 事前トレーニングでは 40 GB の VRAM を備えた 24 個の NVIDIA A100 GPU を 3 週間使用し、微調整では 8 個の A100 GPU を 1 回の実行につき 6 時間使用しました。 この計算量は、一般に研究グループが利用できるものではありませんが、業界の研究グループが日常的に推進している同様の LLM プロジェクトよりも少ないこと、および私たちの結果は、高性能モデルを取得するために大規模な事前トレーニングが必要ではない可能性があることを示していることに注意します。 私たちの結果は、微調整のための高品質のデータセットが事前トレーニングよりも価値があることを示しており、実験結果に基づいて、計算能力が制限されている場合には、ユーザーが外部で事前トレーニングされた言語モデルをローカルで微調整することをお勧めします。 外部で事前トレーニングされたモデルの選択に関しては、大量のドメイン内の臨床テキストで事前トレーニングされたモデルを使用することをさらにお勧めしますが、大規模なドメイン外のモデルは、特に内部の臨床テキストと組み合わせた場合に高いパフォーマンスを発揮する可能性があることに注意してください。ドメインの微調整。 より大規模なデコーダベースのアーキテクチャを使用することは、医療データの微調整や、一連の思考、指示、関連技術による迅速な調整にも利点があることが実証されており、一般から医療テキストへの領域移行を考慮する必要性がさらに強調されています。医学におけるLLMの仕事のため。 これらのアプローチを直接比較したことはありませんが (計算最適化モデルをトレーニングするには、より多くの医学テキストまたは一般領域テキストとの融合が必要になります 26)、これは研究にとって興味深い将来の方向性になる可能性があり、最終的には次のようになると考えています。言語モデリングに対するこれらの異なるアプローチを組み合わせたアプローチは、ユースケースによっては補完的であることが判明する可能性があります。

私たちのアプローチの最終的な検証は、臨床的影響を評価するための個々のタスクの予測に関連付けられた介入のランダム化比較試験と、NYUTron を医療システムに統合し続ける際のユーザーのフィードバックから得られる必要があります。 私たちは独自の医療システム内でこれを計画するため、各タスクの予測される患者のリスクに応じて、さまざまなレベルの介入を検討することをお勧めします。 たとえば、30 日間の再入院のリスクが低い患者の場合、フォローアップの電話をスケジュールすることができます。 高リスクの患者の場合は、早期退院を制限するように注意する必要があります。 すべての介入は医師の監督の下で決定されるべきですが、運用上の使用の多くはおそらく完全に自動化できます。

AI アシスタントが医師と一緒に治療を観察し、予測やアドバイスを提供することは、医師にとって長年の夢です。 この未来的なビジョンに向けて一歩を踏み出すために、私たちは大規模な医療システムの EHR 全体に関して LLM である NYUTron をトレーニングし、医師のメモを読み、幅広い臨床および運用タスクにわたってこれらの予測のいくつかを行うようにしました。 当社は NYUTron を実際の医療環境に導入し、臨床ワークフローにシームレスに統合しながら、30 日以内の再入院を予測するその有効性を実証しました。 私たちは、この取り組みが現代の自然言語処理と深層学習の進歩を医療の質と手頃な価格の向上につなげる扉を開くものであると信じており、次に何が起こるのかを楽しみにしています。

私たちは、NYU Langone EHR から直接、ラベルのない臨床ノートのこのデータセットを作成しました。 データセットには、387,144 人の患者、7,247,694 件のメモ、合計 4,112,249,482 語が含まれています。 NYU Notes は次のように構築しました。NYU Langone EHR にクエリを実行するための構造化照会言語 (SQL) スクリプトを作成しました。 まず、対話型の Web ベース エディター (Cloudera Hue) を使用してクエリのプロトタイプを作成し、次にクエリ結果をコンマ区切りファイル (CSV) としてニューヨーク大学ランゴーンの高性能コンピューティング クラスターにダウンロードしました。 2011 年から 2020 年まで (包括的) にティッシュ病院、ニューヨーク大学ランゴン病院 – ブルックリン、ニューヨーク大学ランゴン病院 – ロングアイランド、およびニューヨーク大学ランゴン整形外科病院の医療専門家 (医師、研修医、医師助手、看護師およびフェロー) が署名したメモを含めました。 請求から派生したメモは除外され、無効または空のラベルが付けられました。 メモを 949:50:1 の比率で、トレーニング セット、検証セット、テスト セットの 3 つのセットに分割しました。 最後に、15% の確率でトークンをマスクして、マスクされたテキストとラベルを作成しました。

私たちは、マンハッタンのティッシュ病院で書かれたニューヨーク大学ノートのサブセットとして、ラベルのない臨床ノートのこのデータセットを作成しました。 データセットには、256,217 人の患者、4,342,602 のメモ、合計 2,381,466,993 の単語が含まれています。

私たちは、NYU Langone Health – Brooklyn で書かれた NYU ノートのサブセットとして、ラベルのない臨床ノートのこのデータセットを作成しました。 データセットには、合計 104,521 人の患者、1,337,352 のメモ、および合計 1,102,078,012 の単語が含まれています。

私たちは、NYU Langone EHR からラベル付き退院ノート (再入院用のバイナリ ラベル付き) のこのデータセットを作成しました。 このデータセットのメモのほとんどはニューヨーク大学メモのサブセットであり、一時的なテスト用に 2021 年からの追加の退院メモが含まれています。 データセットには、413,845 人の患者、506,740 件のメモ、合計 487,395,462 語が含まれています。 このデータセットは次のように構築しました。2011 年 1 月から 2021 年 11 月までの間に終了した各遭遇について、30 日間の全原因再入院のバイナリ ラベルを付けた退院ノートを含めました。 患者が退院後 30 日以内に入院記録を持っていた場合、「再入院」ラベルを割り当てました。 急性期再入院のモデル化に焦点を当てるため、リハビリテーション、透析、緩和ケア部門からの退院記録は急性期入院ではないため除外しました。 データセットをトレーニング、検証、テスト、および時間テスト セットの 4 つのセットに分割しました。 最初の 3 セットは 2011 年 1 月から 2021 年 5 月までのノートで、比率は 8:1:1 でした。 一時的なテスト セットには、2021 年 6 月から 12 月までのメモが含まれていました。4 方向の分割の視覚化については、拡張データの図 8a を参照してください。

私たちは、マンハッタンのティッシュ病院で書かれたニューヨーク大学再入院データセット内のメモのサブセットとして、ラベルのない臨床メモのこのデータセットを作成しました。 データセットには、240,824 人の患者、296,519 件のメモ、および 253,622,053 語が含まれています。

私たちは、NYU Langone Health – Brooklyn で書かれた NYU 再入院データセットからの臨床ノートのサブセットとして、ラベルのない臨床ノートのこのデータセットを作成しました。 データセットには、94,653 人の患者、113,275 件のメモ、および 142,767,957 語の単語が含まれています。

私たちは、NYU Langone EHR からの院内死亡率のバイナリ ラベルを使用して、病歴と身体 (H&P) メモのデータセットを作成しました。 このデータセットのメモのほとんどはニューヨーク大学メモのサブセットであり、一時的なテスト用に 2021 年からの追加の H&P メモが含まれています。 データセットには、合計 371,922 人の患者、469,162 のメモ、および合計 484,467,141 の単語が含まれています。 このデータセットは次のように構築しました。2011 年 1 月から 2021 年 11 月の間に終了した各遭遇について、院内死亡率のバイナリ ラベルを付けた H&P メモを含めました。 患者の退院処分が「期限切れ」である場合、陽性ラベルを割り当てました。 データセットをトレーニング、検証、テスト、および時間テスト セットの 4 つのセットに分割しました。 最初の 3 セットは 8:1:1 の比率で 2011 年 1 月から 2021 年 5 月までのメモであり、一時的なテスト セットには 2021 年 6 月から 12 月までのメモが含まれていました。

私たちは、NYU Langone EHR の病院 LOS の 5 つのクラス ラベルを含む H&P ノートのこのデータセットを作成しました。 このデータセットのメモのほとんどはニューヨーク大学メモのサブセットであり、一時的なテスト用に 2021 年からの追加の H&P メモが含まれています。 データセットには、合計 327,039 人の患者、403,579 件のメモ、および合計 422,485,417 語が含まれています。 このデータセットに含まれるラベル付き遭遇の数は、NYU Mortality および NYU Binned LOS データセットよりも少ないです。これは、遭遇の 22% に CCI スコアを計算するための国際疾病分類 (ICD) コードがなかったためです。 この欠損により、構造化された ICD コードが欠如しているビン化された CCI スコアを予測するというタスクが動機付けられました。 このデータセットは次のように構築しました。2011 年 1 月から 2021 年 11 月までの間に終了した各遭遇について、ビン化された CCI スコアの 5 クラスのラベルを含む H&P ノートを含めました。 ラベルを生成するには、まず ICD コードと参考文献のスコア関数を使用して併存疾患指数を計算しました。 27. 次に、スコアを 5 つのクラスに離散化しました。50% 分位未満の併存疾患指数 (0 日) にはラベル 0、50% と 75% 分位間の併存症指数 (1 ~ 2 日) にはラベル 1 を割り当てました。ラベル 2 は 75% と 90% 分位数の間の併存疾患指数 (3 ~ 4 日)、ラベル 3 は 90% と 99% 分位数の間の併存疾患指数 (4 ~ 7 日)、ラベル 4 はそれ以上の併存疾患指数です。 99% 分位数 (7 日以上)。 データセットをトレーニング、検証、テスト、および時間テスト セットの 4 つのセットに分割しました。 最初の 3 セットは 8:1:1 の比率で 2011 年 1 月から 2021 年 5 月までのメモであり、一時的なテスト セットには 2021 年 6 月から 12 月までのメモが含まれていました。

私たちは、ニューヨーク大学ランゴン EHR からの病院 LOS の分位ラベルを備えた H&P ノートのこのデータセットを作成しました。 このデータセットのメモのほとんどはニューヨーク大学メモのサブセットであり、一時的なテスト用に 2021 年からの追加の H&P メモが含まれています。 データセットには、合計 371,922 人の患者、469,162 のメモ、および合計 484,467,141 の単語が含まれています。 このデータセットは次のように構築しました。2011 年 1 月から 2021 年 11 月までの間に終了した各遭遇について、バイナリ ラベルと LOS の分位ラベルが付いた H&P メモを含めました。 分位ラベルについては、25% 分位数未満の LOS (0 ~ 2 日) にラベル 0、25% と 50% 分位数の間の LOS (3 日) にラベル 1、50% 分位数間の LOS にラベル 2 を割り当てました。 % および 75% 分位数 (4 ~ 5 日)、75% 分位点を超える LOS (>5 日) には 3 とラベルを付けます。 データセットをトレーニング、検証、テスト、および時間テスト セットの 4 つのセットに分割しました。 最初の 3 セットは 8:1:1 の比率で 2011 年 1 月から 2021 年 5 月までのメモであり、一時的なテスト セットには 2021 年 6 月から 12 月までのメモが含まれていました。

私たちは、患者の保険請求が最初に拒否されたか直接承認されたかを示すバイナリ ラベルを備えた H&P メモのこのデータセットを作成しました。 データセットには、合計 54,563 人の患者、55,791 件のメモ、および合計 51,270,256 語が含まれています。 このデータセットは次のように構築しました。2021 年 5 月 1 日から 2022 年 4 月 30 日までに発生した各遭遇について、保険拒否のバイナリ ラベルを付けた H&P メモを含めました。 患者の保険請求ステータスが「最終的な不利な決定」(保険によって請求が拒否され、控訴後に再び拒否された)または「最終的な有利な決定」(保険によって請求が拒否され、控訴後に承認された)である場合、肯定的なラベルを割り当てました。 データセットをトレーニング、検証、テスト、および時間テスト セットの 4 つのセットに分割しました。 最初の 3 セットは、2021 年 5 月 1 日から 2022 年 2 月 30 日までのメモで、比率は 18:1:1 でした。 一時的なテスト セットには、2022 年 3 月 1 日から 4 月 30 日までのメモが含まれていました。

私たちは、患者の保険請求が最初に拒否されたか直接承認されたかを示すバイナリ ラベルを備えた退院ノートのこのデータセットを作成しました。 データセットには、54,563 人の患者、55,791 のメモ、合計 49,405,133 の単語が含まれています。 このデータセットは次のように構築しました。2021 年 5 月 1 日から 2022 年 4 月 30 日までの間に発生した各遭遇について、保険否認のバイナリ ラベルが付いた退院ノートを含めました。 ラベルの割り当てと 4 方向の分割は、ニューヨーク大学の保険拒否データセットと同じでした。

このデータセットには、ニューヨーク大学保険否認データセットと同じメモが含まれていましたが、ラベルが異なりました。 バイナリ ラベルは、患者の保険金請求が最終的に拒否されたか (控訴後でも)、最終的に承認されたか (直接承認または控訴後の承認) を示しました。

このデータセットには、ニューヨーク大学保険拒否 - 退院メモ データセットと同じメモが含まれていましたが、ラベルが異なりました。 バイナリ ラベルは、患者の保険金請求が最終的に拒否されたか (控訴後でも)、最終的に承認されたか (直接承認または控訴後の承認) を示しました。

これは、年次臨床 NLP チャレンジの一環としてハーバード大学医学部によって公開されたオープン データセットです28。 このデータセットは、臨床 NLP コミュニティでよく知られたベンチマークです。 このタスクは、匿名化された臨床ノートから、臨床概念 (治療など)、診療科 (外科など)、出来事の発生 (入院など)、証拠 (患者の訴えなど) を特定して分類することです。ボストンのベス・イスラエル・メディカルセンター出身。 データセットに含まれる患者数は 310 人、メモ数は 310 件、単語数は 636,000 語までです。 使用申請が承認された後、n2c2 データ ポータルからデータセットを圧縮 tar.gz ファイルとしてダウンロードしました。

これは、MIT とボストン ベス イスラエル メディカル センターによってリリースされた、集中治療室 (ICU) EHR のオープン データセットです29。 私たちは 52,726 件の退院記録を収集し、30 日以内にその後の遭遇があったかどうかをチェックして、30 日間の全原因再入院ラベルを作成しました。 再入院率は6%でした。 データを 8:1:1 の比率でトレーニング、検証、テスト セットに分割しました。

このデータセットは、展開エンジンとニューヨーク大学ランゴン EHR からの再入院用のバイナリ ラベルを含む退院メモで構成されています。 2022 年 1 月から 4 月まで、医師が退院メモに署名するたびに、メモは NYUTron の予測のためにカスタム推論エンジンに送信されました。 対になった退院記録と予測はデータベースに記録されました。 研究期間終了時点で、データベースには 27,376 人の患者、29,287 件のメモ、および 34,669,963 語の単語が含まれていました。

非構造化モデルと比較するために、再入院用のバイナリ ラベルを備えた構造化 LACE30 特徴のこのデータセットを作成しました。 このデータセットには、ニューヨーク大学再入院データセット内のすべての遭遇に対する構造化された特徴が含まれています。 LACE は、再入院の伝統的な臨床予測ルールで、LOS、再入院の重症度、チャールソン併存疾患指数、過去 6 か月間の最近の救急外来受診数の 4 つの特徴を備えています。 私たちは次のようにデータセットを構築しました。NYU 再入院データセット内のすべての遭遇について、NYU Langone EHR から 4 つの LACE 特徴に関するデータを収集しました。 LOS は、退院日と入院日の差 (日数) でした。 再入院の緊急度は、患者が救急外来に入院したかどうかを示す二項特徴でした。 併存疾患指数は、参考文献のマッピングアルゴリズムに基づいて、慢性疾患の ICD-9 または ICD-10 コードを使用して計算されました。 31 および参考文献のスコア関数。 27. 救急外来の受診回数は、入院日の 6 か月前までの患者の遭遇歴から計算されました。

私たちは、マンハッタンのティッシュ病院で書かれたニューヨーク大学再入院 – LACE データセットのメモのサブセットから、構造化された LACE 特徴のデータセットを作成しました。

私たちは、NYU Langone Health – Brooklyn で書かれた NYU Readmission – LACE データセットのメモのサブセットから、構造化された LACE 特徴のデータセットを作成しました。

私たちは、非構造化データと比較するために、院内死亡率のバイナリ ラベルを備えた構造化 SAPS2 + APACHE2 特徴のデータセットを作成しました。 このデータセットには、ニューヨーク大学死亡率データセット内のすべての遭遇に対する構造化された SAPS2 + APACHE2 特徴のサブセットが含まれています。 SAPS2 + APACHE2 機能は、ICU 死亡率予測のために SAPS2 モデル 15 および APACHE2 モデル 16 で使用される機能のサブセットです。 NYU Langone EHR で利用可能な機能のサブセットを選択しました。 次の 12 の特徴を含めました: 年齢 (数値)、平均心拍数 (数値)、最高血圧 (数値)、心房温度 (数値)、血中尿素窒素濃度 (数値)、ナトリウム濃度 (数値)、カリウム濃度 (数値) )、ビリルビン濃度(数値)、白血球数(数値)、pH(数値)、クレアチン濃度(数値)、ヘマトクリット(数値)。 部門の専門性(カテゴリー)を追加しました。 以下の特徴は利用できないため除外しました: PaO2/FiO2 (吸気酸素分画に対する動脈血酸素分圧の比)、患者が機械換気を行っているか持続的気道陽圧 (CPAP) を使用しているか、重炭酸塩濃度、尿量、グラスゴー昏睡スケールスコア、転移性癌または血液悪性腫瘍またはエイズの存在、および入院が予定されていたかどうか。

私たちは、非構造化データ モデルと比較するために、院内死亡率のバイナリ ラベルを備えた構造化された「リスボン ポルトガル」フィーチャのデータセットを作成しました。 このデータセットには、NYU Binned LOS データセット内のすべての遭遇について、リスボン ポルトガル データセット 18 (LOS 予測文献で広く使用されている) で使用されている特徴のサブセットが含まれています。 私たちは、NYU Langone EHR で利用可能な 12 の特徴のサブセットを選択しました: 性別 (カテゴリー)、生年月日と入学日の間の年の差によって測定された年齢 (数値)、最高教育レベル (カテゴリー)、国(カテゴリー)、住所としての郵便番号 (カテゴリー)、婚姻状況 (カテゴリー)、入院タイプ (カテゴリー)、入院サービスのタイプ (カテゴリー)、プロバイダー ID (カテゴリー)、部門の専門分野 (カテゴリー)、手続き名 (カテゴリー) および番号過去の入院者数(数値)。 H&P ノートの執筆時点では診断が常に利用できるとは限らないため、診断は省略しました。 NYU Langone EHR で見つけるのが難しいため、次の 3 つの特徴、すなわち均一なグループ診断コード、優れた診断カテゴリー、および治療を除外しました。

非構造化データ モデルと比較するために、NYU 保険否認データセットに基づいてこの構造化データセットを作成しました。 このデータセットには、NYU Insurance Denial データセット内のすべての遭遇に対する構造化特徴が含まれており、NYU Insurance Denial データセットと同じ分割があります。 構造化特徴の選択は、参考文献の特徴に基づいています。 19 では、保険請求フォームに含まれる人口統計および介護関連の特徴から保険請求の拒否を予測するモデルを構築しました。 NYU Langone EHR で利用可能な 8 つの特徴が見つかりました。患者名 (カテゴリ)、年齢 (数値)、性別 (カテゴリ)、住所の一般化としての郵便番号 (カテゴリ)、保険ブランド (カテゴリ)、最初の保険プラン名 (カテゴリ) )、プロバイダー ID (カテゴリ)、およびプロバイダー タイプ (カテゴリ)。 さらに、臨床医の入力に基づいて 4 つの機能を追加しました。2 番目の保険プラン コード (カテゴリ)、外科症例用のバイナリ フラグ (カテゴリ)、救急科症例用のバイナリ フラグ (カテゴリ)、およびメディケアの出来高払い用のバイナリ フラグです。ユーザー (カテゴリ別)。 参考文献では 6 つの機能を省略しました。 19 患者と被保険者との関係、ネットワークの種類、請求が再提出であるかどうか、診断ポインタ、サービス料金、事前承認番号などの検索が困難なため。

これらのデータセットを使用して、語彙サイズ 50,000 トークン、最大シーケンス長 512 トークン、および特別なトークン [SEP]、[PAD]、[UNK]、[MASK]、および [CLS] を使用して、大文字小文字を区別しない BERT ワードピース トークナイザーをトレーニングしました。 ほとんどの臨床メモには 512 を超えるトークンが含まれていたため、各長いメモを最大シーケンス長未満の重複しないチャンクに分割しました。 具体的には、自然言語ツールキット (nltk)32 を使用して各メモを文に分割し、各文をトークン化しました。 512 トークンより長い文については、切り捨てられました。 次に、同じメモ内のすべてのトークン化された文について、各グループが正確に最大シーケンス長になるように、それらをグループに連結しました。 ロングノートの残りのグループ (厳密に最大値よりも短い長さ) を破棄しました。

NYU Notes でトレーニングされたトークナイザーを使用して、まず退院メモをトークン化しました。 最大シーケンス長の 512 トークンを超えるノートは切り捨てられました。 長い臨床メモを効率的に読み取る言語モデルを設計することは将来に委ねられます (言語モデルのパフォーマンスに対するメモの長さの影響については、拡張データの図 8b を参照)。

まず、tar.gz ファイルを xml ファイルのフォルダーに解凍しました。 次に、xml ファイルを brat 形式に変換しました。 次に、brat ファイルを bio ファイルに変換しました。 最後に、バイオ ファイルのフォルダーを HuggingFace データセットに変換するカスタム HuggingFace33 データ ローダーを作成しました。 前処理用のコードは GitHub で入手できます。

まず、HTML アーティファクトを削除してノートを整理しました。 次に、NYUTron のトークナイザーを使用して退院メモをトークン化しました。 最大シーケンス長の 512 トークンを超えるノートは切り捨てられました。

欠落している数値特徴がある場合 (たとえば、平均心拍数が NaN であった)、その特徴をトレーニング セット全体の平均特徴として埋めました。 欠落しているカテゴリ特徴 (たとえば、入学部門が「指定されていない」) については、それらをカテゴリ「なし」のままにしました。

私たちは、前処理された NYU Notes と MLM 目標を使用して、1 億 900 万パラメータの BERT モデルを、検証損失が頭打ちになり始めるまで、3 つのコンピューティング ノードに分散された 24 台の NVIDIA A100 GPU で 3 週間 (96 エポック) にわたって事前トレーニングしました。 モデルにはディメンション 768 の 12 の隠れ層があり、層ごとに 12 個のアテンション ヘッドがあります。 デバイスごとのトレーニング バッチ サイズ 64 を使用し、2,000 ステップごとに保存しました。 5 × 10−5 の一定学習率、FP16 混合精度、およびステージ 2 並列化を備えたゼロ冗長性 AdamW オプティマイザー (Adam オプティマイザーを改良したもの) を使用しました 34,35,36。

事前トレーニングされた BERT モデルの最後の隠れ層の後で、トレーニングされた MLM 分類器をランダムに初期化された線形分類器に置き換えました。 10 エポックの NYU 再入学データセットのトレーニング セットを使用してモデルをエンドツーエンドで微調整し、半エポックごとに検証 AUC を評価し、5 の忍耐力で早期に停止しました。 検証 AUC に基づく手動調整から次のハイパーパラメーターを使用しました。学習率 2 × 10−5、重み減衰 0.01、デバイスごとのバッチ サイズ 4 です。AdamW オプティマイザーを使用してクロスエントロピー損失を最適化しました。 。 データセットのサイズ (N ∈ {102, 103, 104, 105, 3.92336 × 105}) を変化させながら、NYU 再入学データセットのサブサンプルを使用して事前トレーニング済みモデルを微調整し、時間テスト セットでの AUC を評価しました。 サブサンプルのサイズごとに、異なるランダム シード (0、13、24、36、42) を使用して 5 つの実験を実行しました。 比較のために、5 つの実験の AUC 中央値と標準偏差を調べました。

事前トレーニングされた BERT モデルの最後の隠れ層の後で、トレーニングされた MLM 分類器をランダムに初期化された線形分類器に置き換えました。 10 エポックのニューヨーク大学死亡率データセットのトレーニング セットを使用してモデルをエンドツーエンドで微調整し、半エポックごとに検証 AUC を評価し、忍耐力 5 で早期に停止しました。検証に基づいて手動調整から次のハイパーパラメーターを使用しました。 AUC: 学習率 2 × 10−5、重み減衰 0.01、デバイスごとのバッチ サイズ 4。AdamW オプティマイザーを使用してクロスエントロピー損失を最適化しました。 完全なデータセットを使用して、NYU 死亡率データセットのサブサンプルを使用して事前トレーニングされたモデルを微調整し、時間テスト セットで AUC を評価しました。 サブサンプルのサイズごとに、異なるランダム シード (0、13、24、36、42) を使用して 5 つの実験を実行しました。 比較のために、5 つの実験の AUC 中央値と標準偏差を調べました。

事前トレーニングされた BERT モデルの最後の隠れ層の後で、トレーニングされた MLM 分類器をランダムに初期化された線形分類器に置き換えました。 10 エポックの NYU Binned Comorbidity データセットのトレーニング セットを使用してモデルをエンドツーエンドで微調整し、半エポックごとに検証 OVR AUC を評価し、忍耐力 5 で早期に停止しました。 に基づいて手動調整から次のハイパーパラメーターを使用しました。検証 OVR AUC: 学習率 2 × 10−5、重み減衰 0.01、デバイスごとのバッチ サイズ 4。AdamW オプティマイザーを使用してクロスエントロピー損失を最適化しました。 完全なデータセットを使用して、NYU Binned Comorbidity データセットのサブサンプルで事前トレーニングされたモデルを微調整し、時間テスト セットで OVR AUC を評価しました。 サブサンプルのサイズごとに、異なるランダム シード (0、13、24、36、42) を使用して 5 つの実験を実行しました。 比較のために、5 つの実験の OVR AUC 中央値と標準偏差を調べました。

事前トレーニングされた BERT モデルの最後の隠れ層の後で、トレーニングされた MLM 分類器をランダムに初期化された線形分類器に置き換えました。 10 エポックの NYU Binned LOS データセットのトレーニング セットを使用してモデルをエンドツーエンドで微調整し、半エポックごとに検証 AUC を評価し、5 の忍耐力で早期に停止しました。検証 OVR AUC: 学習率 2 × 10−5、重み減衰 0.01、デバイスごとのバッチ サイズ 4。AdamW オプティマイザーを使用してクロスエントロピー損失を最適化しました。 完全なデータセットを使用して、NYU Binned LOS データセットのサブサンプルで事前トレーニングされたモデルを微調整し、時間テスト セットで AUC を評価しました。 サブサンプルのサイズごとに、異なるランダム シード (0、13、24、36、42) を使用して 5 つの実験を実行しました。 推論のために、ラベル 4 が非常にまばらだったため、最後の 2 つのクラス、ラベル 3 (90 ~ 99% 分位数) とラベル 4 (>99% 分位数) を結合しました。 比較のために、5 つの実験の OVR AUC 中央値と標準偏差を調べました。

事前トレーニングされた BERT モデルの最後の隠れ層の後で、トレーニングされた MLM 分類器をランダムに初期化された線形分類器に置き換えました。 10 エポックの NYU Insurance Denial データセットのトレーニング セットを使用してモデルをエンドツーエンドで微調整し、半エポックごとに検証 AUC を評価し、忍耐力 5 で早期に停止しました。検証 AUC: 学習率 2 × 10−5、重み減衰 0.01、デバイスごとのバッチ サイズ 4。AdamW オプティマイザーを使用してクロスエントロピー損失を最適化しました。 完全なデータセットを使用して、ニューヨーク大学保険否認データセットのサブサンプルを使用して事前トレーニングされたモデルを微調整し、時間テスト セットで AUC を評価しました。 サブサンプルのサイズごとに、異なるランダム シード (0、13、24、36、42) を使用して 5 つの実験を実行しました。 比較のために、5 つの実験の AUC 中央値と標準偏差を調べました。

微調整実験は次のように実行しました。 拡張データ テーブル 2 の各 LLM について、事前トレーニング済みチェックポイントとして LLM を使用して HuggingFace トークン分類モデルを初期化しました。 i2b2-2012 NER を使用し、学習率 2 × 10−5、重み減衰 0.01、バッチ サイズ 4 の AdamW オプティマイザーを使用して 10 エポックにわたってモデルを微調整し、50 ステップごとに評価し、初期段階で停止しました。これは、4 つの NVIDIA 17 GB V100 GPU の 1 つのノードで 20 ~ 40 分かかりました。 ランダム シード 0、13、24、36、42 を使用して微調整を 5 回実行し、マイクロ平均 F1 スコアの平均と標準偏差を記録しました (非エンティティ「O」のラベルを除く)。

微調整実験は次のように実行しました。NYUTron と BioClinicalBert の両方で、事前トレーニングされたチェックポイントとして LLM を使用して HuggingFace トークン分類モデルを初期化しました。 学習率 2 × 10−5、重み減衰 0.01、バッチ サイズ 16 の AdamW オプティマイザーを使用して、10 エポックの MIMIC-III Readmission を使用してモデルを微調整し、半エポックごとに評価しました。 ランダムなシード 0、13、24、36、42 を使用して微調整を 5 回実行しました。

微調整されたモデルは高性能フォーマット (Onnx または TensorRT) に変換され、HLA7 Fast Health Interoperability Resources (FHIR)37 インターフェイスを介して NYU Langone EHR とインターフェイスする NVIDIA Triton 推論エンジンである展開プラットフォームにロードされました。 パフォーマンス、セキュリティ、信頼性、解釈可能性についての考慮事項については、補足情報セクション 5 を参照してください。

私たちの導入プラットフォームは、NYUTriton (健康システムに良いことから「栄養」と発音します) と名付けた NVIDIA の Triton Inference Server の修正バージョンで構成されていました。 NVIDIA Triton は、GPU、x86、および ARM CPU ベースの推論と、動的バッチ処理、同時実行、非常に柔軟なモデル仕様インターフェイス、広範な深層学習フレームワークと高速化されたモデル形式をサポートする機能などのいくつかの重要な機能をサポートしています。最大のスループット。 NVIDIA Triton を変更して、HuggingFace 形式の言語モデルとシームレスにインターフェイスできるようにし、開発パイプラインと実稼働パイプラインの間に均一で柔軟性の高いクロスオーバー ポイントを提供しました。 トレーニングされたモデルは標準の HuggingFace スタイル形式で保存され、Onnx に変換されてから TensorRT に変換され、ミリ秒未満のスケールの推論結果が得られます。 NYUTriton は、Lambda Labs から購入した AMD Threadripper 3960X (24 コア、3.8 GHz)、2 つの RTX 3090 GPU、および 128 GB の DDR5 システム メモリで構成される専用の推論サーバーでホストされています。

Epic での退院概要の署名に続いて、HL7 FHIR インターフェイスは NYUTriton に接続し、基礎となる再入院モデルと送信者を指定する退院概要とメタデータで構成される JavaScript Object Notation (JSON) ペイロードを送信します。 NYUTriton はテキストを前処理し、高速化された NYUTron 再入院モデルを使用して推論ジョブを実行し、モデルの推論結果をセカンダリ オーケストレーション サーバーに返します。セカンダリ オーケストレーション サーバーは結果をデータベースに書き込み、署名する医師に電子メールを生成します。

構造化ベースラインは、(1) 院内死亡率予測用の SAPS2/APACHE2 機能 + XGBoost、(2) 再入院予測用の LACE 機能 + XGBoost、(3) ビン化された LOS 予測用のリスボン ポルトガルの機能 + XGBoost、および (4) 請求フォームの機能でした。 + 保険否認予測用の XGBoost。

すべての構造化ベースラインについて、xgboost ライブラリを使用して、バイナリ ロジスティック損失 (3 つ以上のクラスのマルチクラス ソフトマックス損失) を備えた極端な勾配ブースト ツリー分類器をトレーニングしました。 scikit-learn のランダム化検索を使用して、{1, 5, 10} からの minimum_child_weight、{0.5, 1, 1.5, 2, 5} からのガンマ、{0.6, 0.8, 1} からのサブサンプル、{0.6, AUROC スコアに基づく 100 回の反復の 0.8、1.0}、max_ Depth は {3、4、5}、learning_rates は {0.001、0.01、0.1、0.5}、n_estimators は {10、100、1000} に基づきます(複数の場合は ovr-auroc スコア)クラス) 3 重交差検証による 38。 個別のランダム シード (0、13、24、36、42) を使用して各実験を 5 回実行しました。 死亡率、併存疾患のビン分け、LOS のビン分け、保険否認については、完全なデータセットを使用して実験を実行しました。 再入院の場合、NYU 再入院 – LACE データセットのサブサンプル (N ∈ {102, 103, 104, 105, 3.92336 × 105}) を使用してモデルをトレーニングしました。

我々は、5 つのタスク (院内死亡率予測、ビン化された併存疾患指数予測、30 日間の全原因再入院予測、ビン化された LOS 予測、および保険否認予測) を、バイナリ クラスの場合は AUC、複数のクラスの場合は OVR AUROC を使用して評価しました。 AUROC は、さまざまな判定しきい値から生じる形式 (TPR、FPR) のタプルで構成される 2 次元曲線の下の領域です。

さらに、TPR、FPR、適合率、再現率、および F1 スコアの指標を使用して再入院予測を評価しました。これらの指標の範囲はすべて [0, 1] です。 マイクロ平均 NER F1 スコアを使用して NER を評価しました。 NER F1 スコアは、非エンティティ ラベル「O」が計算から除外されることを除いて、通常の F1 スコアと同様です。

私たちはNYUTronを医師と比較しました。 私たちは、主治医 3 名と研修医 3 名という、さまざまな年功序列を持つ 6 名の医師と協力しました。 医師らは退院概要を検討し、記載された患者が30日以内に再来院するかどうかを予測するよう求められた。

NYUTron を他の 4 つの LLM および 2 つの機械学習モデルと比較しました。 「random-init」は、ランダムに初期化されたパラメーターを備えた BERT ベースのケースなしモデルです。 「web-wiki」は、Web テキスト (BookCorpus データセット 39 から) と Wikipedia 記事 (英語版 Wikipedia データセット 40 から) を使用して事前トレーニングされた BERT ベースのアンケース モデルです。 「web-wiki+bio」は、Web テキスト、Wikipedia の記事、PubMed の抄録 41、および PubMed Central (PMC) の全記事 42 を使用して事前トレーニングされた BERT モデルです。 「web-wiki+bio+clinical」、または gatortron-og43 は、Web テキスト、Wikipedia の記事、PubMed の要約、PMC の全記事、MIMIC-III ノート、およびフロリダ大学の匿名化された臨床ノートを使用して事前トレーニングされた Megatron-BERT44 モデルです。健康。 「lace+xgb」は、極端な勾配ブースト ツリー モデルを使用して、(従来の臨床予測ルールから)構造化された LACE 特徴を読み取ります14。 「tf-idf+xgb」は、極端な勾配ブースト ツリー モデルを使用してコーパス レベルのバッグオブワード特徴を読み取ります。 事前学習コーパスの詳細な統計と例については、拡張データ表 2 および拡張データ図 3 を参照してください。

私たちは、ランダムなテストセットから 20 枚の退院記録を無作為に抽出し、さまざまな年功序列を持つ 6 人の医師に、患者が 30 日以内に再発するかどうかを予測するよう依頼しました。 6 人の医師には、担当脳外科医 3 名、脳神経外科レジデント 2 名、ICU レジデント 1 名が含まれています。

私たちは REDCap を使用して調査を実施し、医師に無制限の時間を与えました。 調査は次のように構成されました。各ケースについて、「この人は 30 日以内に入院しますか?」と質問し、その後に退院の概要を尋ねました。 医師は「はい」または「いいえ」で答えることを選択できます。 患者が 30 日以内に戻った場合、その後の再入院の特徴を評価するために 3 つの追跡調査が行われました。 まず、「この再入院は以前の退院と関連していますか?」と質問し、その後、その後の再入院に関する H&P のメモが続きました。 医師は、「はい」、「いいえ」、「部分的」、または「30 日間の再入院に関するメディケア基準を満たしていない」と答えることができます。 2 番目のフォローアップ質問は「この再入院は予防可能ですか?」で、医師はこれに「はい」、「いいえ」、または「部分的」と答えることができました。 3 番目のフォローアップ質問「コメントはありますか?」には自由記述形式の回答があり、医師はなぜ再入院が以前の退院と部分的に関連しているのか、またはなぜ再入院が部分的に予防可能であるのかを説明できます。

NYUTron の予測を収集するために、HuggingFace のテキスト分類パイプラインを使用して、20 件の退院メモの推論を実行しました。 退院届ごとに、パイプラインは再入院の予測確率を出力します。 この予測確率を、しきい値 0.07 のバイナリ ラベルに変換しました (0.07 以上の予測確率は陽性ラベルに変換されました)。 決定境界として 0.07 を選択したのは、これが、しきい値 {0.01 × n : n ∈ {1, ..., 90} の中で 80% 以上の検証再現率を与える最小しきい値だったためです (80% の基準は、次の基準に基づいて選択されました)臨床応用可能性)。 NYUTron の検量線については、拡張データ図 8c を参照してください。

他の LLM を微調整するためのデータセット、ハイパーパラメーター、評価およびソフトウェア ライブラリは、NYUTron を微調整する場合と同じでした。 事前トレーニングされた LLM は次のように構築されました。random-init は、リセット パラメーターを備えた BERT ベースのアンケース化モデルです。 web-wiki は BERT ベースのケースなしモデルです。 web-wiki+bio は、dmis-lab/biobert-base の v1.2 モデルです。 web-wiki+bio+clinical は、NVIDIA NGC からダウンロードされた Gatortron-og で、convert megatron bert Checkpoint を使用して HuggingFace チェックポイントに変換されました。

他の LLM を微調整するためのデータセット、ハイパーパラメーター、評価およびソフトウェア ライブラリは、NYUTron を微調整する場合と同じでした。 事前訓練された LLM は、退院記録から再入院を予測するためのベースライン LLM と同じでした。

NYU Readmission–LACE データセットを使用し、xgboost ライブラリを使用して、ハイパーパラメーター検索によるバイナリ ロジスティック損失を伴う極端な勾配ブースト ツリー分類器をトレーニングしました。 scikit-learn のランダム化検索を使用して、{1, 5, 10} の minimum_child_weight、{0.5, 1, 1.5, 2, 5} のガンマ、{0.6, 0.8, 1} のサブサンプル、{0.6, 0.8 のcol_sample_bytree の間で検索しました。 、1.0}、max_ Depth は {3, 4, 5} から、learning_rates は {0.001, 0.01, 0.1, 0.5} から、n_estimators は検証セットの AUROC スコアに基づいて 100 回の反復で {10, 100, 1000} から得られます37。 NYU 再入院 – LACE データセットのサブサンプル (N ∈ {102, 103, 104, 105, 3.92336 × 105}) を使用してモデルをトレーニングし、時間テスト セットで AUROC を評価しました。 サブサンプルのサイズごとに、異なるランダム シード (0、13、24、36、42) を使用して 5 つの実験を実行しました。 比較のために、5 つの実験の中央値 AUROC と標準偏差を調べました。

私たちは、ニューヨーク大学再入院データセットのテキストを tf-idf (用語頻度 – 逆文書頻度) 埋め込みに変換し、バイナリ ロジスティック損失を備えた xgboost 分類器を使用して再入院を予測しました。 raytune45 を使用してハイパーパラメータを検索しました。これには、{512, 5000} からの max_tf-idf 特徴、間隔 4 の 3 ~ 16 の量子化されたランダム整数からの max_ Depth、10-2 ~ 10-1 の対数一様分布からの learning_rate、間隔 4 の 0 ~ 12 の量子化一様分布からの gamma、間隔 4 の 0 ~ 8 の量子化一様分布からの minimum_child_weight、間隔 2 の 0 ~ 10 の量子化一様分布からの reg lambda、colsample_bytree 0.7 ~ 1 の一様分布から、スケール pos 重みは 10 間隔の 0 ~ 50 の量子化された一様分布から、n_estimator は 50 間隔で 50 ~ 300 の量子化整数分布からです。サブサンプルを使用してモデルをトレーニングしました (ニューヨーク大学再入院データセットの N ∈ {102, 103, 104, 105, 3.92336 × 105}) を使用し、時間テスト セットで AUROC を評価しました。 サブサンプルのサイズごとに、異なるランダム シード (0、13、24、36、42) を使用して 5 つの実験を実行しました。 比較のために、5 つの実験の中央値 AUROC と標準偏差を調べました。

NYUTron とその 4 つのバリアント (さまざまなサイトからのデータを使用して事前トレーニングおよび微調整) を比較しました: (1) NYU Notes – マンハッタン + NYU 再入学 – マンハッタン、(2) NYU Notes – マンハッタン + NYU 再入学 – ブルックリン、(3) NYU注 – ブルックリン + ニューヨーク大学再入学 – ブルックリンおよび (4) ニューヨーク大学ノート – ブルックリン + ニューヨーク大学再入学 – マンハッタン。 NYUTron バリアントを微調整するためのハイパーパラメーター、評価、およびソフトウェア ライブラリは、NYUTron を微調整する場合と同じでした。

遡及的研究での一時的なテストのパフォーマンスに基づいて、前向き試験で使用するための決定閾値 0.07 の微調整モデルを選択しました。

正しく予測された再入院患者 (n = 3,298) の状態を評価するために、彼らの院内死亡率および入院期間を、同じ期間に入院した患者のそれと比較しました。 私たちは、2022年2月から5月までに入院した患者(n = 30,548)のデータを収集し、彼らの院内死亡率およびLOSを、2022年1月から4月までにNYUTronによって捕らえられた再入院患者の死亡率およびLOSと比較しました。比較の統計的有意性を評価するために (2 つのグループの平均が同じであるという帰無仮説を使用した) 検定を行います46。

私たちは、現実世界の環境におけるモデルのパフォーマンスをより深く理解し、モデルの出力に基づいて的を絞った介入を作成できることを期待して、前向きコホートの再入院患者の事後分析を実行しました。 再入院患者 100 人が、患者数に応じてニューヨーク大学ランゴン大学の 5 つの最大の診療科、すなわち内科、小児科、一般外科、産婦人科、血液腫瘍科からサンプリングされました。 各部門は 20 件のケースを提供し、10 件のケースがその部門で最も高い予測確率を持ち、10 件のケースが最も低い予測確率を持ちました。 すべてのケースでは、安全なオンライン プラットフォーム上でのインデックス解除と再登録のためにエンカウント ID が記録されていました。 再入院が計画されていたかどうか、再入院が罰則付きの 30 日間再入院の CMS 基準を満たしているかどうか、再入院は予防可能かどうか、再入院時に有害事象が発生したかどうか、有害事象は予防可能かどうか、および再入院時に有害事象が発生したかどうかを尋ねる手動レビュー用に標準化された質問表が作成されました。審査する医師がこの症例についてコメントを持っているかどうか。 内科と脳神経外科の医師 10 人からなるチームは、ペアでレビューする症例をランダムに割り当てられ、レビュー担当者間で意見の相違がある場合は、3 人目の医師のレビュー担当者が判断しました。 再入院が予防可能かどうかを判断するために、査読者は推論遭遇の退院記録と再入院遭遇の H&P 記録を調べた。

私たちの研究は、ニューヨーク大学ランゴン大学治験審査委員会によって「s21-01189 NYUtron」として承認され、方法は治験審査委員会の関連ガイドラインおよび規制に従って実施されました。

研究デザインの詳細については、この記事にリンクされている Nature Portfolio Reporting Summary を参照してください。

事前トレーニング、微調整、検証、およびテスト セットに使用される臨床データは、NYULH Datacore チームによって維持されている NYU Langone Health System EHR から収集されました。 テキスト データはリッチ テキスト機能が取り除かれ、「そのまま」データセットに直接組み込まれ、注記されている場合には構造化された特徴が追加されました。 これらのデータはニューヨーク大学ランゴン大学の医療記録で構成されており、一般に公開することはできません。 研究者は、合理的な要求により、地方および国の倫理的承認を条件として、NYU Langone Health System から限定的な匿名化されたデータセット (またはテストのサブセット) を取得することができます。 また、公開されている i2b2-2012 (https://portal.dbmi.hms.harvard.edu/projects/n2c2-nlp/) および MIMIC-III (https://physionet.org/content/mimiciii/1.4/) も使用しました。データセット。

SQL と Python 3.8.13 を使用して、NYU Langone EHR からデータを収集しました。 医師の回答を収集するために REDCap 12.4.31 を使用しました。 この作業では、HuggingFace Transformers 4.19.2、Datasets 2.2.2、Evaluate 0.1.1、wandb 0.12.17、matplotlib 3.5.2、seaborn 0.12.2、pandas 1.4.2、ray 2.0.0 などのいくつかのオープンソース ライブラリを使用しました。 、sklearn 1.1.1、deepspeed 0.8.0+384f17b、NVIDIA Apex、XGBoost 1.6.1、nltk 3.6.3。 私たちの実験フレームワークには、これらのライブラリの使用と、場合によってはそれらの変更が含まれていました。 この論文で説明されているモデルの事前トレーニング、微調整、テストを複製するコードを公開時にリリースする予定です (実験用のコードは https://github.com/nyuolab/NYUTron で入手可能、i2b2-2012 用の前処理コード) https://github.com/nyuolab/i2b2_2012_preprocessing で入手できます)。 独立したレプリケーションを可能にする詳細な方法と実装手順を「方法と補足情報」に記載しています。

ロバーツ、M.ら。 胸部 X 線写真や CT スキャンを使用して、機械学習を使用して 新型コロナウイルス感染症 (COVID-19) を検出および予測する場合の一般的な落とし穴と推奨事項。 ナット。 マッハ。 インテル。 3、199–217 (2021)。

記事 Google Scholar

Kelly, CJ、Karthikesalingam, A.、Suleyman, M.、Corrado, G.、King, D. 人工知能で臨床効果をもたらすための主な課題。 BMC医学。 17、195 (2019)。

論文 PubMed PubMed Central Google Scholar

ゴーブ、S. et al. AI の言うとおりにする: 臨床意思決定支援の導入における感受性。 NPJ 桁。 医学。 4、31 (2021)。

論文 PubMed PubMed Central Google Scholar

Devlin, J.、Chang, M.-W.、Lee, K. & Toutanova, K. BERT: 言語理解のための深い双方向トランスフォーマーの事前トレーニング。 手順で。 2019 NAACL: Human Language Technologies (Burstein, J.、Doran, C. & Solorio, T. 編) 4171–4186 (計算言語学協会、2019)。

ブラウン、TB et al. 言語モデルは少数回の学習です。 手順で。 NeurIPS (Wallach, H. 他編) 1877–1901 (神経情報処理システム、2020)。

ゲージ、BFら。 抗凝固療法を受ける心房細動患者の選択: アスピリン服用患者における脳卒中リスク層別化。 回覧 110、2287–2292 (2004)。

論文 CAS PubMed Google Scholar

小児、CG およびターコット、JG 手術、門脈圧亢進症。 主要な問題。 クリン。 外科。 1、1–85 (1964)。

CAS Google スカラー

Pugh, RNH、Murray-Lyon, IM、Dawson, JL、Pietroni, MC & Williams, R. 出血性食道静脈瘤に対する食道の離断術。 Br. J.Surg. 60、646–649 (2005)。

記事 Google Scholar

ウェルズ、P.ら。 深部静脈血栓症の臨床評価の正確さ。 ランセット 345、1326–1330 (1995)。

論文 CAS PubMed Google Scholar

トマシェフ、N. 他将来の急性腎障害を継続的に予測するための臨床的に適用可能なアプローチ。 ネイチャー 572、116–119 (2019)。

論文 PubMed PubMed Central ADS Google Scholar

ウー、N.ら。 ディープ ニューラル ネットワークは、乳がんスクリーニングにおける放射線科医のパフォーマンスを向上させます。 IEEE TMI 39、1184–1194 (2020)。

Google スカラー

Liang、H.ら。 人工知能を活用した小児疾患の評価と正確な診断。 ナット。 医学。 25、433–438 (2019)。

論文 CAS PubMed Google Scholar

カプラン、J.ら。 ニューラル言語モデルのスケーリング則。 https://doi.org/10.48550/arXiv.2001.08361 (2020) のプレプリント。

Chen, T. & Guestrin, C. XGBoost: スケーラブルなツリー ブースティング システム。 手順で。 2016 SIGKDD 785–794 (コンピューティング機械協会、2016 年)。

Le Gall, J.-RA ヨーロッパ/北米の多施設共同研究に基づく新しい簡易急性生理学スコア (SAPS II)。 混雑する。 医学。 准教授 270、2957–2963 (1993)。

記事 Google Scholar

Knaus, WA、Draper, EA、Wagner, DP & Zimmerman, JE APACHE II: 疾患の重症度分類システム。 クリティカル。 ケアメッド。 13、818–829 (1985)。

論文 CAS PubMed Google Scholar

Charlson, ME、Pompei, P.、Ales, KL & MacKenzie, CR 長期的研究における予後併存疾患を分類する新しい方法: 開発と検証。 J.クロン。 ディス。 40、373–383 (1987)。

論文 CAS PubMed Google Scholar

Caetano , N. 、Laureano , RMS & Cortez , P. 入院期間を予測するためのデータ駆動型アプローチ - ポルトガルのケーススタディ。 手順で。 2014 ICEIS (Hammoudi , S. 、Maciaszek , L. および Cordeiro , J. 編) 407–414 (SCITEPRESS デジタル ライブラリ、2014 年)。

Johnson, M.、Albizri, A. & Harfouche, A. ヘルスケアにおける責任ある人工知能: 経済的および社会的幸福のための保険請求拒否を予測および防止します。 情報システム。 フロント。 https://doi.org/10.1007/s10796-021-10137-5 (2021)。

van Walraven, C.、Wong, J. & Forster, AJ LACE+ 指数: 管理データを使用して早期死亡または退院後の緊急再入院を予測するための検証済み指数の拡張。 オープンメッド。 6、80–90 (2012)。

Google スカラー

アメリカ疾病予防管理センター。 C.diffとは何ですか? https://www.cdc.gov/cdiff/what-is.html (2022)。

ヤン、G.ら。 言語モデル分類器は、再入院予測において XGBoost よりも医師の単語の感度とよく一致します。 プレプリントは https://doi.org/10.48550/arXiv.2211.07047 (2022) にあります。

Perez, E.、Kiela, D. & Cho, K. 言語モデルを使用した真の少数ショット学習。 手順で。 NeurIPS (Ranzato, M. 他編) 11054–11070 (神経情報処理システム、2021)。

シンハル、K.ら。 大規模な言語モデルは臨床知識をエンコードします。 https://doi.org/10.48550/arXiv.2212.13138 (2022) のプレプリント。

ボルトン、E.ら。 PubMedGPT 2.7B。 テクニカルレポート。 スタンフォード大学基礎モデル研究センター https://crfm.stanford.edu/2022/12/15/pubmedgpt.html (2022)。

ホフマン、J.ら。 コンピューティングに最適な大規模言語モデルのトレーニングの実証分析。 手順で。 NeurIPS (Koyejo, S. et al. 編) 30016–30030 (神経情報処理システム、2022)。

チャールソン、M. チャールソン併存疾患指数 (CCI)。 MD+CALC https://www.mdcalc.com/calc/3917/charlson-comorbidity-index-cci (2022)。

Sun, W.、Rumshisky, A.、Uzuner, O. 臨床物語における時間情報に注釈を付ける。 J.Biomed. 知らせる。 46、5–12 (2013)。

記事 Google Scholar

ジョンソン、AEWほか MIMIC-III、自由にアクセスできる救命救急データベース。 科学。 データ 3、160035 (2016)。

論文 CAS PubMed PubMed Central Google Scholar

van Walraven, C. et al. 早期死亡または退院後の地域社会への予定外の再入院を予測するための指標の導出と検証。 できる。 医学。 准教授 J. 182、551–557 (2010)。

記事 Google Scholar

スンダララジャン、V. 他。 チャールソン併存疾患指数の新しい ICD-10 バージョンは、院内死亡率を予測しました。 J.クリン. エピデミオール。 57、1288–1294 (2004)。

論文 PubMed Google Scholar

Bird, S. & Loper, E. NLTK: 自然言語ツールキット。 手順で。 2004 ACL インタラクティブ ポスターおよびデモンストレーション セッション 214 ~ 217 (計算言語学協会、2004)。

ウルフ、T.ら。 トランスフォーマー: 最先端の自然言語処理。 手順で。 2020 EMNLP (Webber, B.、Cohn, T.、He, Y. & Liu, Y. 編) 38–45 (計算言語学協会、2020)。

Rajbhandari, S.、Rasley, J.、Ruwase, O.、He, Y. ZeRO: メモリの最適化。 兆パラメータモデルのトレーニングに向けて。 手順で。 内部。 会議ハイ パフォーマンス コンピューティング、ネットワーキング、ストレージ、および分析 1–16 (IEEE Press、2020)。

Loshchilov, I. & Hutter, F. 分離された重み減衰正則化。 ICLR https://openreview.net/forum?id=Bkg6RiCqY7 (2019)。

Kingma, DP & Ba, J. Adam: 確率的最適化の手法。 ICLR https://arxiv.org/abs/1412.6980 (2017)。

Ayaz, M.、Pasha, MF、Alzahrani, MY、Budiarto, R. & Stiawan, D. Fast Health Interoperability Resources (FHIR) 標準: 実装、アプリケーション、課題、機会に関する体系的な文献レビュー。 JMIR医学。 知らせる。 21929 年 9 月 (2021 年)。

記事 Google Scholar

ペドレゴサ、F.ら。 Scikit-Learn: Python での機械学習。 J.マッハ。 学ぶ。 解像度 12、2825–2830 (2011)。

MathSciNet MATH Google Scholar

Zhu, Y. 他本と映画の連携:映画を見たり本を読んだりすることで、物語のような視覚的な説明を目指します。 手順で。 2015 ICCV (L. O'Conner 編) 19–27 (IEEE、2015)。

ウィキメディア財団。 ウィキメディアのダウンロード。 https://dumps.wikimedia.org/ (2021)。

NCBI 文学リソース。 PubMed データをダウンロードします。 https://pubmed.ncbi.nlm.nih.gov/download/ (2022)。

国立医学図書館。 PubMed Central: PMC 論文データセット。 https://www.ncbi.nlm.nih.gov/pmc/tools/textmining/ (2022)。

ヤン、Xら。 電子医療記録のための大規模な言語モデル。 NPJ 桁。 医学。 5、194 (2022)。

Shoeybi、M.ら。 Megatron-LM: モデル並列処理を使用して、数十億のパラメーター言語モデルをトレーニングします。 https://doi.org/10.48550/arXiv.1909.08053 (2020) のプレプリント。

Liaw、R.ら。 Tune: 分散モデルの選択とトレーニングのための研究プラットフォーム。 https://doi.org/10.48550/arXiv.1807.05118 (2018) のプレプリント。

Welch, BL いくつかの異なる母集団分散が関係する場合のスチューデントの問題の一般化。 Biometrika 34、28–35 (1947)。

MathSciNet CAS PubMed MATH Google Scholar

リファレンスをダウンロードする

EKO は、国立がん研究所の早期外科医科学者プログラム (3P30CA016087-41S1) と WM Keck Foundation によって支援されています。 このプロジェクトを可能にしたビジョンとサポートに感謝したいと思います。 また、共同研究者であるニューヨーク大学ランゴーン ハイパフォーマンス コンピューティング (HPC) チームの M. Costantino 氏と K. Yie 氏にも感謝いたします。 GPU クラスターの構築と維持における彼らのたゆまぬ支援がなければ、この研究はいずれも不可能でした。 また、この研究への支援によりすべてが可能になった D. Bar-Sagi と N. Mherabi にも感謝します。 この作業の一部として使用される SQL データ構造の学習について協力してくれた、NYU Langone Predictive Analytics Unit の B. Guzman 氏と NYU Grossman School of Medicine の VJ Major に感謝します。 最初の原稿をレビューし、編集してくださった Y.(R.) Pang に感謝いたします。 i2b2 データセットの前処理と評価を支援してくれたフロリダ大学の X. Yang に感謝します。 私たちのチームのためにREDCap調査と研究管理を手伝ってくれたS. Ciprutに感謝します。 貴重な議論をしていただいた C. Fernandez-Granda、J. Kempe、V. Dhar、N. Wu、M. Barot、A. Chen、K. Link、F. Kwon に感謝します。

米国ニューヨーク州ニューヨーク州ニューヨーク大学ランゴンヘルス脳神経外科

ラベンダー・ヤオ・ジャン、シュージン・クリス・リュー、ムスタファ・ナシル=モイン、ハワード・アントニー・リナ、イリヤ・ローファー、ノラ・C・キム、コーデリア・オリヤック、ゼーン・シュヌルマン、クリストファー・リヴィア、ハンナ・ワイス、デヴィッド・カーランド、ショーン・ナイフェルト、ヨセフ・ダスタギルザダ、ダグラス・コンジオルカ、アレクサンダーTM Cheung、Grace Yang、Ming Cao、エリック・カール・オールマン

ニューヨーク大学データサイエンスセンター

ラベンダー・ヤオ・ジャン、グレース・ヤン、ミン・カオ、キョンヒョン・チョー、エリック・カール・オールマン

電気およびコンピュータ工学、タンドン工学大学院、ニューヨーク州ニューヨーク州、米国

徐進クリス・リュー

NVIDIA、サンタクララ、カリフォルニア州、米国

[ダウンロード] をクリックして Nima Pour Nejatian - Anas Abidin mp3 youtube com を保存します

予測分析ユニット、NYU Langone Health、ニューヨーク州ニューヨーク州、米国

デュオ・ワン & インダロン・アフィニャナフォンス

米国ニューヨーク州ニューヨーク州ニューヨーク大学ランゴンヘルス内科

ケビン・イートン、パーワン・パンジャブ、マデリーン・ミセリ

人口保健局、NYU Langone Health、ニューヨーク州、ニューヨーク州、米国

インダロン・アフィニャナフォンス

Prescient Design、Genentech、ニューヨーク、ニューヨーク、米国

Kyunghyun Cho

クーラント数理科学研究所、ニューヨーク大学、ニューヨーク州、ニューヨーク州、米国

Kyunghyun Cho

カナダ高等研究所、トロント、オンタリオ州、カナダ

Kyunghyun Cho

米国ニューヨーク州ニューヨーク州ニューヨーク大学ランゴンヘルス放射線科

エリック・カール・オールマン

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

EKO はプロジェクトを概念化し、監督しました。 LYJ はデータ (NYU 保険否認データセットと MIMIC-III 再入院データセットを除く) を収集し、実験を実施しました。 LYJ と XCL が図を作成しました。 XCL、NPN、MN-M。 KC は、モデルと事前トレーニングおよび微調整ソフトウェアのデバッグとテストを行いました。 EKO は NYUTriton 導入プラットフォームを設計し、EKO、AA、DW がシステムを構築して EHR と統合しました。 KE、EKO、DW、YA は、ニューヨーク大学保険否認データセットを収集して処理しました。 HAR、IL、PP、KE、MM、NCK、CO、ZS、CL、HW、DK、SN、YD、DK、ATMC は、人体実験、症例のレビュー、ユーザーへのフィードバックとテストの提供に参加しました。 GY と MC は tf-idf+xgb のスクリプトを提供し、MIMIC-III 再入場データセットを構築しました。 MF、ABC、YA、KC は、プロジェクト全体を通じて指導とフィードバックを提供しました。 LYJ、KC、EKO が最初の草稿を書きました。 LYJ、EKO、KC、MN-M.、GY、MC が最終提出物を作成しました。 著者全員が原稿を編集および改訂しました。

エリック・カール・オールマンへの通信。

EKO は、Sofinnova および Google とのコンサルティング、Merck & Co. および Mirati Therapeutics からの収入、および Artisight への株式を報告しています。 NPN、MF、および ABC は NVIDIA によって採用されています。 DK は Elekta と相談していると報告しています。 KC は、Roche の子会社である Genentech アクセラレーターである Prescient Design に雇用されています。 他に利益相反の可能性はありません。 ここで紹介する研究は、NYU Langone Health System 内でのみ行われました。

Nature は、この研究の査読に貢献してくれた Ziad Obermeyer と他の匿名の査読者に感謝します。

発行者注記 Springer Nature は、発行された地図および所属機関の管轄権の主張に関して中立を保っています。

a、ランダム テストの AUC 曲線は、一時的なテストよりも優れたパフォーマンスを示します。 ランダムテストの AUC は 84.13% であるのに対し、一時テストの AUC は 80.2% です。 この違いは、問題の設定を反映するテスト セットを作成することの重要性を強調しています。 再入院予測の場合、展開セットは常にトレーニング セットの将来から取得されます。 したがって、モデルの選択には時間的テスト AUC を使用します。 b. トレーニング例の数が増加した場合のランダム テスト AUC と一時テスト AUC の比較は、展開パフォーマンスを推定するには一時テストが重要であることを示しています。 ここでは、時間的に分割されたデータセットのサンプリングが、ランダムにサンプリングされたテスト データセットよりも「難しい」ように見えることを示します。これは、テストされたすべての LLM とレース + xgb のパフォーマンスが、ランダム テスト (同じ時間のメモ) よりも時間テスト (将来のメモ) の方が悪いためです。トレーニングデータとして)。 左側の色付きの線 (ランダム テスト AUC) は、通常、右側の色付きの線 (時間的テスト AUC) よりも高くなります。 これは、一時的にサンプリングされたホールドアウト テスト セットがモデルのパフォーマンスのより現実的な推定値を与える重要な違いであると結論付けています。 興味深いことに、言語モデルは、lace+xgb モデルよりもこの現象に敏感であるようです。

再入院予測と同様の傾向が観察されます。(a) 異なるデータ利用可能設定の下で NYUTron が tf-idf よりも優れたパフォーマンスを示すこと、(b) 臨床的に事前訓練された言語モデルが非臨床的に事前訓練された言語モデルよりも優れたパフォーマンスを示すことを示します。 これは、医療システムのスケール言語モデルが汎用の臨床予測エンジンであり、事前トレーニングと微調整コーパス間のドメイン一致がタスクのパフォーマンスに寄与するという我々の発見を裏付けるものです。 a、NYUTron と従来の NLP モデル (tf-idf+xgb) の間の時間テスト AUC の比較。 NYUTron の AUC 中央値は、テストされたすべての微調整例で tf-idf+xgb よりも高くなります。 黒い縦線は、異なるランダム シード (0、13、24、36、42) の 5 回の試行にわたる標準偏差を示します。 b. NER タスクにおける LLM の微調整パフォーマンスの比較。 i2b2-2012 臨床概念抽出タスクでは、臨床コーパス (NYUTron、web-wiki+bio+clinical) で事前トレーニングされた LLM は、臨床コーパス (web-wiki+bio) で事前トレーニングされていない LLM よりも高い平均 f1 スコアを持ちます。 、ウェブウィキ、ランダム初期化)。 具体的には、NYUTron と web-wiki+bio+clinical は、ランダムに初期化されたモデル (連続 f1 スコア中央値が 36.64% 高い) や非臨床的に事前訓練されたモデル (連続 f1 スコア中央値が 2.01% ~ 3.48% 高い) よりも優れたパフォーマンスを示します。 各バーの高さは平均 f1 スコアであり、各黒い垂直線の長さの半分は、異なるランダム シード (0、13、24、36、42) の 5 回の試行にわたる標準偏差を示していることに注意してください。

ここでは、私たちの作業を文脈化するのに役立つ、利用された事前トレーニング コーパスからのいくつかの例を示します。 3 種類の事前学習コーパスの例: (1) Web-wiki (ブックコーパスからのオンライン書籍と英語版 Wikipedia からの百科事典の記事)、(2) 経歴 (Pubmed Abstracts からの学術論文の要約と Pubmed Central からの全記事)、(3) ) 臨床 (NYU ノート、ランゴン EHR からのニューヨーク大学再入院、およびフロリダ保健大学からの臨床ノート)。

NYUTron を別の医療システムに一般化するためにどの程度の微調整が必​​要かをテストするために、MIMIC の異なるサブサンプルを使用して、NYUTron と BioClinicalBERT (パラメータとアーキテクチャの数は NYUTron と同じですが、MIMIC ノート、ブックコーパス、pubmed、wikipedia の記事で事前トレーニングされています) を微調整します。 -III 再入院データセット。 このデータセットには、ボストン ベス イスラエル病院からの匿名化された 52,726 件の ICU 退院メモが含まれており、トレーニングと評価とテストが 8:1:1 に分割されています。 100 サンプルでは、​​AUC は同様です。 1000 サンプルでは、​​NYUTron の AUC 中央値は BioClinicalBERT より 3.58% 高くなります (57.22% 対 53.64%)。 10,000 サンプルでは、​​NYUTron の AUC 中央値は BioClinicalBERT より 6.42% 高くなります (65.56% 対 59.14%)。 完全なデータセット (42,180 サンプル) を使用すると、NYUTron の AUC 中央値は BioClinicalBERT より 3.8% 高くなります (67.04% 対 63.24%)。 NYUTron が NYU Langone からの特定された全部門のメモに基づいて事前トレーニングされ、Beth-Israel からの匿名化された ICU 固有のメモに基づいて微調整されたことを考えると、この結果は、NYUTron が局所的な微調整を通じて非常に異なる健康環境に一般化できることを示しています。 バーの高さは、個別のランダム シード (0、13、24、36、42) を使用した 5 つの実験の中央値のパフォーマンスを示し、エラー バーは最小値と最大値の範囲を示します。

a、診療科および腫瘍科の下位専門分野による NYUTron の経時的検査パフォーマンスの層別分析。 NYUTron のパフォーマンスは神経科 (AUC 90.12%) で最も高く、内科 (非腫瘍科の AUC 67.95%、腫瘍科の AUC 63.77%) で最も低く、AUC の差は約 20% です。 診療科間のこの大きな差異は、より詳細な分析がパフォーマンスの向上につながる可能性があることを示唆しています。 各部門の例の数 (N) と再入院率 (p) に注釈を付けます。 b、NYUTron のパフォーマンスは、月ごとにわずかな変動を示します。 2013 年 1 月から 2021 年 12 月までの NYUTron の平均月間テスト AUC をプロットして、根底にある月次傾向またはサイクルを探し、新任の医師が既存の医師とは異なる書き方で研修を開始する 7 月にパフォーマンスが最悪になるという仮説を検証しました。実践 (7 月の月間 AUC を示す赤い破線)。 棒の高さは 9 年間の平均月次パフォーマンスを示し、垂直棒は標準偏差を示します。 各月の症例数 (N) と再入院率 (p) に注釈を付けます。 7 月の月間 AUC が 2 番目に低く、分散が最も高いことがわかります。 私たちは、新しい医師によって書かれた臨床記録が、月ごとの一時的な変化と 7 月のパフォーマンスの低下に関連していると推測しています (そして検証にはさらに何年ものデータが必要です)。 1月から3月、4月から6月、7月から9月の四半期の平均AUCは増加しており、これは異なる診療科にわたる研修医のローテーションスケジュールと一致している可能性があります。 この循環的パフォーマンスのさらなる調査は今後の研究に委ねます。

年齢と人種という 2 つの考えられるバイアス源によるモデルのパフォーマンス分析の一環として、NYUTron のパフォーマンスの層別分析を実行します。 各評価の例の数 (N) と再入院率 (p) に注釈を付けます。 a, 年齢の 9 つのビン (10 年間隔のビンを持つ 0 ~ 90 歳) に基づいて一時的テストを層別化します。 NYUTron は 10 ~ 40 歳の患者で最も優れたパフォーマンスを発揮しますが、40 歳を超えると十分位に応じてパフォーマンスが低下し、80 ~ 90 歳のグループで最もパフォーマンスが悪くなります。 これはサンプルサイズの影響ではなく、最大のサンプルは80~90歳ですが、おそらく高齢になるにつれて複雑さと併存疾患の負担が不釣り合いに高くなるのを反映していると考えられます。 b. 人種による潜在的な依存関係と偏りをテストするには、まずデータセット内で最も頻度の高い 5 つの人種 (白人、その他の人種、黒人、中国人、インド人) を特定し、次に評価結果を人種ごとに階層化します。 NYUTron は中国人患者で最高のパフォーマンスを示し、黒人患者で最悪のパフォーマンスを示しましたが、両グループ間で AUC に若干のばらつきがありました。

a, 個々のデータ ポイントを含む箱ひげ図。 各モデルについて、ランダム シード 0、13、24、36、42 を使用して 5 つの実験が実行されました。箱ひげ図の中心線は中央値を示します。 ボックスの上の線は、第 1 分位数を示します。 プロットの下の線は最後の分位数を示します。 ひげは四分位間長の 1.5 倍まで伸びており、ひし形は外れ値を示しています。 b. 平均と標準偏差を示す棒グラフ。 バーの高さは 5 回の実験の平均を示し、黒い垂直線の長さは標準偏差を示します。

a、再入院データ分割タイムラインの視覚化。 モデル評価のこの決定を示すために、ランダムな分割、一時的な分割、および展開の分割をタイムライン上で視覚化します。 ランダム分割は 2013 年 1 月から始まり 2021 年 5 月 (両端を含む) に終了し、さらに 80% のトレイン セット、10% の検証セット、10% のテスト セットに分割されます。 時間分割 (時間テスト) は 2021 年 6 月から始まり、2021 年 12 月に終了します。この期間からトレーニング サンプルはサンプリングされませんでした。 導入データは、単一群の非介入臨床試験の一部として将来に向けて収集されるため、必然的に将来からサンプリングされます。 b、NYUTron のパフォーマンスは、入力ノートがより完全になると向上します。 シーケンスの長さの関数としてパフォーマンスを推定することを試みるために、時間テスト セットから「ロングノート」のサブセットをサンプリングしました。 このサブセットの各音符には 400 語以上、つまり約 512 個のトークンが含まれています。 これらの各「長いメモ」から比例してより多くの情報を取得するにつれてパフォーマンスが徐々に向上することを示すために、再入場ラベルを固定したまま、これらの長いメモを 100、200、300、および 400 ワードに切り詰めました。 破線はすべてのノートの AUC です。 この図は、可能な入力からより多くの単語を処理すると評価パフォーマンスが向上することを示しており、最大シーケンス長を増やすことでパフォーマンスを向上できる明らかな可能性があることが確認されています。 c、d NYUTronの一時的なテスト(c、評価例の数はN = 53,916)および将来の展開(d、評価例の数はN = 29,286)の検量線。 参考として、オレンジ色の線は、理想的に校正された分類器の校正曲線です。 青い線はNYUTronの検量線です。 現在、追加のキャリブレーションは実行せず、一時的検証セットの精度と再現率に基づいて決定しきい値を選択します。 予測確率は、最大の予測確率で正規化されます。 全体として、モデルは 30 日間の再入院タスクに合わせて適切に調整されています。

オープン アクセス この記事はクリエイティブ コモンズ表示 4.0 国際ライセンスに基づいてライセンスされており、元の著者と情報源に適切なクレジットを表示する限り、あらゆる媒体または形式での使用、共有、翻案、配布、複製が許可されます。クリエイティブ コモンズ ライセンスへのリンクを提供し、変更が加えられたかどうかを示します。 この記事内の画像またはその他のサードパーティ素材は、素材のクレジットラインに別段の記載がない限り、記事のクリエイティブ コモンズ ライセンスに含まれています。 素材が記事のクリエイティブ コモンズ ライセンスに含まれておらず、意図した使用が法的規制で許可されていない場合、または許可されている使用を超えている場合は、著作権所有者から直接許可を得る必要があります。 このライセンスのコピーを表示するには、http://creativecommons.org/licenses/by/4.0/ にアクセスしてください。

転載と許可

Jiang、LY、Liu、XC、Nejatian、NP 他。 医療システム規模の言語モデルは、万能の予測エンジンです。 自然 (2023)。 https://doi.org/10.1038/s41586-023-06160-y

引用をダウンロード

受信日: 2022 年 10 月 14 日

受理日: 2023 年 5 月 2 日

公開日: 2023 年 6 月 7 日

DOI: https://doi.org/10.1038/s41586-023-06160-y

次のリンクを共有すると、誰でもこのコンテンツを読むことができます。

申し訳ございませんが、現在この記事の共有リンクは利用できません。

Springer Nature SharedIt コンテンツ共有イニシアチブによって提供

コメントを送信すると、利用規約とコミュニティ ガイドラインに従うことに同意したことになります。 虐待的なもの、または当社の規約やガイドラインに準拠していないものを見つけた場合は、不適切としてフラグを立ててください。