banner
ニュース センター
専門的な知識を身につけており、有能です。

音声を聞いている人間の脳における予測コーディング階層の証拠

Oct 18, 2023

Nature Human Behaviour volume 7、pages 430–441 (2023)この記事を引用

79k アクセス

1167 オルトメトリック

メトリクスの詳細

最近、自然言語処理においてかなりの進歩が見られ、深層学習アルゴリズムによるテキストの生成、要約、翻訳、分類がますます可能になっています。 しかし、これらの言語モデルは依然として人間の言語能力に匹敵するものではありません。 予測符号化理論は、この矛盾に対する暫定的な説明を提供します。言語モデルは近くの単語を予測するように最適化されていますが、人間の脳は複数のタイムスケールにまたがる表現の階層を継続的に予測します。 この仮説を検証するために、短編小説を聞いている 304 人の参加者の機能的磁気共鳴画像脳信号を分析しました。 まず、現代言語モデルの活性化が音声に対する脳の反応に線形にマッピングされることを確認しました。 次に、複数のタイムスケールにわたる予測を使用してこれらのアルゴリズムを強化すると、この脳のマッピングが改善されることを示しました。 最後に、これらの予測が階層的に組織化されていることを示しました。前頭頭頂皮質は、側頭葉皮質よりも高レベル、長距離、より文脈に沿った表現を予測します。 全体として、これらの結果は、言語処理における階層型予測コーディングの役割を強化し、神経科学と人工知能の相乗効果がどのようにして人間の認知の計算基盤を解明できるかを示しています。

ディープ ラーニングは、近くのコンテキストから単語を予測するという単純な目的でトレーニングされたアルゴリズムのおかげで、3 年足らずでテキストの生成、翻訳、完成において大幅な進歩を遂げました 1,2,3,4。 注目すべきことに、これらのモデルの活性化は、音声やテキストに対する人間の脳の反応に直線的にマッピングされることが示されています5、6、7、8、9、10、11、12。 さらに、このマッピングは主に将来の単語を予測するアルゴリズムの能力に依存しているため 7,8 、したがってこの目的は単語を脳のような計算に収束させるのに十分であることを示唆しています。

しかし、人間とこれらのアルゴリズムとの間には依然としてギャップが存在します。大量のトレーニング データにもかかわらず、現在の言語モデルは、長いストーリーの生成、要約、一貫した対話と情報の検索に課題を抱えています 13,14,15,16,17。 彼らはいくつかの構文構造と意味論的特性を捉えることができず18,19,20,21,22、言語理解は表面的です19,21,22,23,24。 たとえば、「その男性が保持しているキーはここにあります」のような入れ子になったフレーズの主語に動詞を誤って割り当てる傾向があります20。 同様に、テキスト生成が次の単語の予測のみに基づいて最適化されると、深層言語モデルは当たり障りのない一貫性のないシーケンスを生成したり、反復ループに陥ったりします13。

予測コーディング理論 25、26、27 は、これらの欠点を説明できる可能性を提供します。 深層言語モデルは主に次の単語を予測するように調整されていますが、このフレームワークは、人間の脳が皮質階層全体にわたる複数の時間スケールと表現レベルにわたって予測を行っていることを示唆しています 28,29 (図 1a)。

以前の研究では、機能的磁気共鳴画像法 (fMRI) 30,31,32,33、脳波検査 34,35 と、単語または音声の意外性、つまり単語または音声がどの程度予想されるかを相関させることにより、脳内の音声予測が実証されています。 36、脳磁図37および皮質電図11,38。 ただし、そのような驚くべき推定は、まさに次の単語または音素を予測し、その出力を 1 つの数値、つまり次のトークンの確率に減らすようにトレーニングされたモデルから得られます。 したがって、予測された表現の性質とその時間的範囲はほとんど不明です。

この研究では、脳活動を fMRI で記録しながら短編小説を聞いている 304 人の脳信号を分析することで、これらの問題に取り組んでいます。 深層言語アルゴリズムが脳の活動に線形にマッピングされることを確認した後、長距離およびマルチレベルの予測でこれらのモデルを強化すると、そのような脳のマッピングが改善されることを示します。 批判的に、そして予測符号化理論と一致して、我々の結果は、皮質における言語予測の階層的組織化を明らかにし、その中で最も高い領域が最も遠い最高レベルの表現を予測する。

a, 深層言語アルゴリズムは通常、近い文脈から単語を予測するようにトレーニングされています。 これらのアルゴリズムとは異なり、脳は、予測符号化理論に従って、(1) 長距離予測と (2) 階層的予測を行います。 b. この仮説を検証するために、まず、それぞれ約 26 分間の短編小説 (Y) と、同じ物語を入力した深層言語アルゴリズムの活性化 (X) をそれぞれ聞いている 304 人の fMRI 信号を抽出しました。 次に、X と Y の類似性を「脳スコア」、つまり最適な線形投影 W 後のピアソン相関 \({{{\mathcal{R}}}}\) で定量化しました (方法)。 c. 将来の単語(または予測された単語、補足図4)の表現を追加することでこの相関関係が改善されるかどうかをテストするために、ネットワークのアクティブ化(X、ここでは黒い四角形として示されています)を「予測ウィンドウ」のアクティブ化に連結(⊕)しました。 ' (\(\チルダ{X}\)、ここでは色付きの長方形として示されています)。 PCA を使用して、予測ウィンドウの次元を X の次元まで削減しました。最後に、\({{{\mathcal{F}}}}\) は、言語アルゴリズムの活性化を強化することによって得られる脳スコアのゲインを定量化します。この予測ウィンドウに。 さまざまな距離のウィンドウを使用してこの分析を繰り返しました (d、方法)。 d、上、距離全体にわたって平坦な予測スコアは、予測表現がアルゴリズムをより脳に近づけないことを示します。 対照的に、下段では、d > 1 でピークに達する予測スコアは、モデルに脳のような予測が欠けていることを示します。 \({{{\mathcal{F}}}}}^{d}\) のピークは、アルゴリズムが脳に最も似た表現を予測するために、どれくらい先の将来に必要となるかを示します。

まず、これら 2 つのシステムに同じストーリーが入力された場合の、深層言語モデルと脳の間の類似性を定量化しました。 このために、ナラティブ データセット 39 を使用し、短編小説を聞いた 304 人の fMRI を分析しました (7 分から 56 分の範囲の 27 のストーリー、合計 4.6 時間のユニークな刺激、参加者あたり平均 26 分、7 分から 99 分)。 。 次に、各ボクセルと各個人に対して独立して線形リッジ回帰を当てはめて、いくつかの深層言語モデルの活性化からの fMRI 信号を予測しました。 最後に、保持されたデータ、つまり、fMRI信号と、特定の言語モデルの活性化によるリッジ回帰入力の予測との間のボクセルごとの相関関係を使用して、対応する「脳スコア」を計算しました(図1b)。 明確にするために、私たちはまず、脳活動を最もよく予測するため、HuggingFace2 によって提供される 12 層の因果的ディープ ニューラル ネットワークである Generative Pre-trained Transformer 2 (GPT-2) の 8 層目の活性化に焦点を当てました 7,8。

以前の研究5、7、40、41と一致して、GPT-2の活性化は、分散された両側の脳領域のセットに正確にマッピングされます。 脳スコアは、聴覚皮質、前側頭領域および上側頭領域でピークに達しました(図2a、補足図1、補足注1、および補足表1〜3)。 これらの脳スコアの効果量は以前の研究 7,42,43 と一致しています。たとえば、最高の脳スコア (上側頭溝の R = 0.23 (図 2a)) は、次のように説明可能な最大信号の 60% を表します。ノイズシーリング分析 (方法) で評価されます。 補足注2と補足図2は、平均して、同様の脳スコアが他の最先端の言語モデルで達成されることを示し、補足図3は、聴覚領域が低レベルの音声表現でさらに改善できることを示しています。 予想通り、ワードレート(補足図3)、ノイズシーリング(方法)、およびGPT-2(図2a)の脳スコアはすべて、言語ネットワークでピークに達します44。 全体として、これらの結果は、深層言語モデルが話された物語に対する脳の反応に線形にマッピングされることを裏付けています。

a、各個人および各ボクセルについて GPT-2 で取得された「脳スコア」(\({{{\mathcal{R}}}}\); 図 1b および方法)。ここでは個人全体で平均されています(n = 304)。 重要な脳スコアを持つボクセルのみが色分けされます。 b、GPT-2で得られた平均(ボクセル全体の)脳スコア(灰色)または予測表現なし(青色)。 平均脳スコアは d* = 8 (灰色の星) でピークに達します。 c. 各ボクセルの平均(個人間の)「予測スコア」 \({{{{\mathcal{F}}}}^{d}\)、つまり、活性化を連結した場合の脳スコアの増加予測ウィンドウ \({\tilde{X}}^{(8)}\) を使用した GPT-2 のグラフが表示されます。 重要な予測スコアを持つボクセルのみが色分けされます。 d、異なる距離に対する(ボクセルにわたる)平均予測スコアd. e, \({{{{\mathcal{F}}}}^{d}\) を最大化する距離。各個人および各ボクセルに対して計算され、d* で示されます。 この「予測距離」により、短期および長期の予測に関連する領域が明らかになります。 赤と青の領域は、それぞれ長期予報と短期予報に関連付けられています。 有意な平均ピーク (\({{{{\mathcal{F}}}}}^{{d}^{* }}-{{{{\mathcal{F}}}}}) を持つボクセルのみを表示します。 ^{0},{d}^{* }=\,8\); メソッド)。 f, 2 つの関心領域内の予測スコア。 各地域について、代表的なピークを持つ個人 (ピークがすべてのピークの 45 ~ 55 パーセンタイルに属する個人、n = 30 個人) の平均予測スコアを報告します。 g、7 つの関心領域の予測距離。各個人のボクセルごとに計算され、選択された脳領域内で平均化されます。 すべてのパネルについて、個人全体の平均効果 (n = 304) を報告し、個人全体の 95% CI (b、d、f) を報告します。 P 値は、個人間の両側 Wilcoxon 符号付き順位検定を使用して評価されました。 a、c、eでは、FDRを使用してボクセル間の多重比較のためにP値が補正され、脳マップはP < 0.01で閾値処理されています。 g の箱ひげ図は、データセットの 10 個の個別のランダムなサブディビジョンで得られた効果の分布を要約しています。

次に、長期予測による言語モデルの活性化の強化が脳スコアの向上につながるかどうかをテストしました(図1c、d)。 具体的には、単語ごとに、(1) 現在の単語のモデル アクティベーション (X で示す) と (2) 「予測ウィンドウ」 (\({\tilde{X}}^{(d)}\ で示す) を連結しました。 )、将来の単語の埋め込みで構成され、時間的距離 d と幅 w = 7 単語でパラメータ化されます(成長ウィンドウ分析については補足図 4 を参照)。 幅は連結されたワードの数ですが、d は現在のワードとウィンドウの最後のワードの間の距離に対応します。 たとえば、 \({\tilde{X}}^{(10)}\) は、現在の単語から 4、5、最大 10 の距離にある単語の連結であり、 \({\tilde{X}}^ {(8)}\) は、現在の単語から 2、3、および最大 8 の距離にある単語の連結です。 距離 d ごとに、予測表現を使用した場合と使用しない場合で得られた脳スコアを比較することにより、「予測スコア」(\({{{{\mathcal{F}}}}^{d}\) で示される) を計算しました (図.2b)。

私たちの結果は、 \({{{\mathcal{F}}}}\) が d = 8 単語の距離で最大となり、言語処理に通常関連する領域でピークとなることを示しています (図 2b–d)。 比較のために、刺激には 1 秒あたり平均 2.54 ワードがあります。 したがって、8 ワードは 3.15 秒の音声 (連続する 2 回の fMRI スキャンの時間) に対応します。 これらの予測スコアは、下前頭回と縁上回を除き、脳内で両側に分布しています(補正後、左右半球の両側ペアワイズウィルコクソン順位和検定を使用して、鰓部と縁上で P < 0.001)多重比較の場合 (メソッド))。

補足分析により、(1) 単語 0 から 10 までの各将来単語が予測効果に大きく寄与していること、(2) 予測表現は約 8 単語のウィンドウ サイズで最もよく捕捉されること、(3) ランダムな予測表現は脳スコアを向上させないことが確認されています。 (4) 真の未来の単語の代わりに GPT-2 によって生成された単語を使用すると、結果は低くなりますが、同様の結果が得られます (補足注記 3 ~ 5 および補足図 4 ~ 6)。

まとめると、これらの結果は、脳内の長期予測表現が脳スコアの23%(個人全体で±9%)の改善を表すことを明らかにします(図2a、b)。

解剖学的研究と機能的研究の両方で、皮質が階層として組織化されていることが示されています28,45。たとえば、低レベルの音響、音素、意味論は主にヘシュル回、上側頭回、および前頭葉、側頭葉、および前頭葉の連合皮質にコード化されています。頭頂葉、それぞれ42、46、47、48、49。

この皮質階層のさまざまなレベルは同じ時間枠を予測しますか? この問題に対処するために、各ボクセルの予測スコアのピークを推定し、対応する距離を d* で示しました。 結果は、前頭前野の予測は、平均して側頭領域よりも将来に遠いことを示しています(図2e)。 たとえば、下側頭回(IFG)のd *は、前上側頭溝(aSTS)よりも高くなります(Δd * = 0.9±0.2、P <0.001;図2f、g)。

側頭頭頂前頭軸に沿った最適予測距離の変化は、2 つの半球にわたってほぼ対称です (補足図 1)。

これらの予測表現の性質は何でしょうか? この問題に対処するために、予測スコアが (1) 低いか高いか、また (2) 構文的表現か意味表現に関連しているかを評価しました。 この目的のために、図 1c のように予測スコアを計算しましたが、使用するレイヤーを GPT-2 から変更しました。 次に、各ボクセルの k*、つまり予測スコアを最大化する深さを特定しました (方法)。 私たちは、言語アルゴリズムの深い層は、最初の層よりも高レベルでより文脈化された表現をエンコードすると考えました50,51。

私たちの結果は、最適な予測深度が予想される皮質階層に沿って変化することを示しました(図3a)。 具体的には、連合皮質は、低レベル言語野よりも深い予測(k * > 6)を使用して最もよくモデル化されます(たとえば、ヘシュル脳回/溝、aSTSではk * < 6;図3a、b)。 領域間の違いは、平均すると小さいですが、個人間では非常に有意であり(たとえば、角回とヘシュル回の間:Δk * = 2.5 ± 0.3、P < 0.001)、左半球と右半球の両方で観察されました(図3b) )。

a、脳内の予測スコアを最大化する表現の深さ、k*で示されます。 予測スコアは、d* = 8 の固定距離で各深度、個人およびボクセルに対して計算され、個人全体で平均されました。 各個人とボクセルの最適な深度を計算し、個人全体の平均予測深度をプロットしました。 暗い領域は深い予測によって最もよく説明され、明るい領域は浅い予測によって最もよく説明されます。 図 2c) のように、重要なボクセルのみが色分けされています。 b、a と同じですが、左半球 (円) と右半球 (三角形) の 9 つの関心領域のボクセル全体で k* が平均化されます。 スコアは個人 (n = 304) にわたって平均され、箱ひげ図はデータセットの 10 個の個別のランダムなサブディビジョンで得られた効果の分布を要約しています。 領域間のペアごとの有意性は、左半球のスコアに関する両側ウィルコクソン順位和検定を使用して評価されました(灰色のバーは P < 0.001 を示します)。

これらの結果を総合すると、前頭頭頂皮質の長期予測は、低レベルの脳領域の短期予測よりも、より文脈化されており、より高いレベルであることが示唆されます。

予測表現を構文要素と意味要素に因数分解するために、Caucheteux et al.40 で紹介された方法を適用し、次のように進めました。各単語とその先行するコンテキストに対して、真の未来単語の構文と一致する 10 個の可能な未来を生成しました。 次の k = 10 個の可能な未来を選択しました 40。 これらの考えられる将来のそれぞれについて、対応する GPT-2 アクティベーションを抽出し、10 の考えられる将来にわたってそれらを平均しました (図 4a および方法)。 この方法により、特定の言語モデル X のアクティベーションを構文コンポーネント (Xsyn で示される平均ベクトル) と意味コンポーネント (残差 Xsem = X − Xsyn) に分解することができました (メソッド)。 構文的および意味的予測ウィンドウが構築されたら、対応する予測スコア (メソッド) を計算しました。

a、Caucheteux et al.40 から改変された、構文的および意味論的な予測表現を抽出する方法。 各単語とそのコンテキスト (たとえば、「すばらしい、あなたの論文 ... 」) について、元の文と同じ構文 (品詞と依存関係ツリー) で 10 個の可能な未来を生成しましたが、セマンティクスはランダムにサンプリングされました (たとえば、「 ... は非常に真実のままです'、'... は非常に小さいように見えます')。次に、対応する GPT-2 アクティベーション (レイヤー 8) を抽出しました。最後に、10 個の先物にわたるアクティベーションを平均しました。この方法により、以下を抽出することができました。 10 の先物に共通の構文コンポーネント, Xsyn で示される. 意味コンポーネントは完全なアクティベーションにおける構文の残差として定義されました; Xsem = X − Xsyn. 7 つの構文コンポーネントと意味コンポーネントを連結することによって構文および意味予測ウィンドウを構築しましたb、図 2c のように、すべてのボクセルの平均で、構文 (青) および意味論 (赤) の予測スコア。スコアは個人間で平均化され、影付きの領域は全体の 95% CI を示します。個人 (n = 304).個人全体の平均ピークは星印で示されます。 c、各ボクセルの意味予測スコア。個人間で平均され、b の意味予測スコアを最大化する距離 d* = 8 で計算されます。 図 2c のように、重要なボクセルのみが表示されます。 d、構文予測スコアおよび d* = 5 については c と同じ。

結果は、セマンティック予測が長距離 (d* = 8) であり、前頭葉と頭頂葉にピークをもつ分散ネットワークが関与していることを示しています。 対照的に、構文予測(図4b)は比較的短い範囲(d * = 5)であり、上側頭領域と左前頭部に局在しています(図4c、d)。 予測ウィンドウのない構文モデル (次元が低い) は、遠い予測ウィンドウを持つ構文モデルよりもパフォーマンスが良いことに注意してください。 このようなスコアの低下は、悪名高い次元の呪いにより、回帰の余分な次元に追加情報がない場合に発生する可能性があります52。 これは、現在のデータセットでは長期的な構文予測が検出できないことを示唆しています。

全体として、これらの結果は、脳における複数のレベルの予測を明らかにしており、上側頭葉皮質は主に短期的で浅い統語的表現を予測するのに対し、下前頭葉と頭頂葉野は主に長期的で文脈に応じた高レベルで意味論的な表現を予測する。

これらの結果は、GPT-2 の現在と未来の単語表現を連結すると、特に前頭頭頂野における脳活動のより適切なモデリングにつながることを示しています (図 2)。 GPT-2 を微調整して、より長距離、より文脈に沿った高レベルの表現を予測することで、そのような領域における脳のマッピングは改善されるのでしょうか? この質問に答えるために、言語モデリング (つまり、次の単語の予測) だけでなく、高レベルかつ長期的な目的 (つまり、高レベルの表現の予測) も使用して、Wikipedia で GPT-2 を微調整しました。遠い言葉の)。 具体的には、高レベルの目的は、ワード t + 8 の事前トレーニング済み GPT-2 モデルの層 8 を予測することです (方法)。 結果は、高レベルおよび長距離モデリングで微調整された GPT-2 が前頭頭頂反応を最もよく説明することを示しています (図 5、IFG および角/縁上回の平均 2% を超える増加、すべて P < 0.001)。 一方、聴覚野と下位レベルの脳領域は、このような高レベルの目標から大きな恩恵を受けません(図5および補足図7)。 これらの結果は、言語の長距離表現、文脈的表現、および高レベル表現の予測における前頭頭頂野の役割をさらに強化します。

a、言語モデリングと高レベル予測(αhigh level = 0.5の場合)を使用して微調整したGPT-2と、言語モデリングのみを使用して微調整したGPT-2の間の脳スコアのゲイン。 有意なゲインを持つボクセルのみが表示されます (多重比較のための FDR 補正後の両側 Wilcoxon 順位和検定で P < 0.05)。 b、完全言語モデリング(左、α = 0)から完全な高レベル予測(右、α = 1)までの、損失における高レベルの重み α の関数としての脳スコアの増加(式 (8))。 利得は、6 つの関心領域内のボクセル全体で平均されました (脳内の他の領域については分割の方法と補足図 7 を参照)。 スコアは個人間で平均され、個人間の 95% CI が表示されます (n = 304)。

本研究では、予測符号化理論の特定の仮説をテストしました25、26、27。 深層言語アルゴリズムは通常、近隣および単語レベルの予測を行うようにトレーニングされます 1,2,3,53,54,55 が、皮質階層が複数のタイムスケールにわたる複数のレベルの表現を予測するかどうかを評価しました。 この目的を念頭に置いて、私たちは脳の活性化を最先端の深層言語モデルの活性化と比較しました5、6、7、42、56。 私たちは、話し言葉を聞いている 304 人の参加者のコホートで仮説を検証することに成功しました39。 脳の活動は、長距離かつ高レベルの予測で強化された深層言語アルゴリズムの活性化によって最もよく説明されます。 私たちの研究はさらに 3 つの貢献を提供します。

まず、外側皮質、背外側皮質、下前頭回、縁上回が最も長い予測距離を示しました。 興味深いことに、これらの皮質領域は、高レベルの意味論、長期計画、注意制御、抽象的思考、およびその他の高レベルの実行機能と繰り返し関連付けられていました。 この結果は、前頭頭頂皮質の積分定数が感覚野および側頭葉野の積分定数よりも大きいことを示した以前の研究と一致しています46、59、60、61。 具体的には、我々の調査結果は、言語階層の最上位に位置するこれらの領域が、過去の刺激を受動的に統合することに限定されず、将来の言語表現を積極的に予測していることを示唆しています。

次に、予測表現の深さは同様の解剖学的組織に沿って変化することを示しました。低レベルの予測は上側頭溝と回を最もよくモデル化し、高レベルの予測は中間側頭、頭頂部、前頭領域を最もよくモデル化します。 この発見は、複雑な音声または音声処理の基礎となる予測の多様性を調査した以前の研究を拡張します28、34、36、62。 これまでの研究は、脳活動と手作業で作成された一次元の予測誤差(単語や音素の驚きなど)のサブセットとの相関関係に焦点を当てていましたが、今回の分析では高次元の予測を調査し、分解しました。 より一般的には、我々の結果は、現在の言語アルゴリズムとは異なり、脳は単語レベルの表現を予測することに限定されず、むしろ複数のレベルの表現を予測するという考えを裏付けています。

最後に、これらの神経活動を構文表現と意味論的表現に分解し、構文的特徴ではなく意味論的特徴が長期予測を推進することを示しました。 この発見は、構文が神経活動で明示的に表現される可能性がある一方で 40、63、64、高レベルの意味論の予測が長文言語処理の中核である可能性があるという考えを強化するものです 65、66。

まとめると、これらの結果は、脳が感覚入力を継続的に予測し、これらの予測を真実と比較し、それに応じて内部モデルを更新するという予測コーディング理論をサポートします25、26、67。 私たちの研究は、この一般的な枠組みをさらに明確にしています。 脳は感覚入力を予測するだけでなく、皮質階層の各領域は、さまざまな時間的範囲とさまざまなレベルの表現を予測するように組織されています(図1a)。 しかし、構文における階層構造と、皮質およびモデルにおける機能階層との間の関連性は、調査すべき主要な問題である 40,51,68。

この計算組織は、主に隣接する単語レベルの予測を行うように訓練されている現在の言語アルゴリズムとは相容れません (図 1a)。 いくつかの研究では代替学習ルールを調査しました4,53,55,69,70,71,72が、長距離予測と高レベル予測の両方を組み合わせていませんでした。 この研究で明らかになった脳アーキテクチャには、現在の深層学習に比べて少なくとも 1 つの大きな利点があると私たちは推測しています。 将来の観測は元の形式では急速に不確定になりますが、その潜在的な表現は長期間にわたって予測可能なままである可​​能性があります。 この問題はすでに音声ベースおよび画像ベースのアルゴリズムに蔓延しており、事前トレーニング済み埋め込み 73、対照学習、より一般的には結合埋め込みアーキテクチャ 74、75、76、77 に基づいた損失により部分的に回避されています。 この研究では、この問題が言語モデルにも蔓延していることを強調します。言語モデルでは、おそらく意味ではなく単語のシーケンスが急速に予測不可能になります。 私たちの結果は、そのような遠隔観測の不確実な性質に対処し、それに応じて相対的な信頼度を調整するには、複数の時間的範囲にわたって複数のレベルの表現を予測することが重要である可能性があることを示唆しています78。

3 つの主要な要素により、これらの結論が緩和されます。 まず、時間分解技術 7,11,36 とは異なり、fMRI の時間分解能は約 1.5 秒であるため、サブ語彙予測の調査にはほとんど使用できません。 第 2 に、皮質階層の各領域で計算された正確な表現と予測を特徴付ける必要があります。 神経表現の解釈は人工知能と神経科学の両方にとって大きな課題であるため、これにはおそらく新しい精査技術が必要となるでしょう。 最後に、現在テストされている予測コーディング アーキテクチャは初歩的なものです。 モデルをより脳に近づけることの効果的な有用性を実証するには、自然言語処理ベンチマークにおけるこのアプローチの体系的な一般化、スケーリング、評価が必要です。

したがって、私たちの研究では、言語の脳と計算基盤を明らかにするだけでなく、複数のタイムスケールと表現レベルを予測するアルゴリズムを体系的にトレーニングする必要があります。

以下を示します。

w 一連の M 語 (つまり、いくつかの短編小説) として。

X は、w で入力された深層言語モデルのアクティベーションであり、サイズは M × U、U は埋め込みの次元です (GPT-2 の層の場合、U = 768)。 特に明記されていない限り、12 層 GPT-2 モデルの 8 層目から抽出されたアクティベーションを使用しました。 別の層を使用する場合、Xk を層 k から抽出されたアクティベーションとして明示的に示します。

Y は、w によって導出されたサイズ T × V の fMRI 記録であり、T は fMRI 時間サンプルの数、V はボクセルの数です。

\({{{\mathcal{R}}}(X)\) を X の脳スコアとして使用します。

\({\widetilde{X}}^{(d)}\) は、将来の最大 d ワードの情報を含む予測ウィンドウとして使用されます。 簡単に言えば、予測ウィンドウは 7 つの連続するワードのディープ ネット アクティベーションを連結したもので、最後のワードは現在のワードから距離 d にあります。

\({{{{\mathcal{F}}}}}^{(d)}(X)\) を距離 d での予測スコア、つまり予測ウィンドウを連結した場合の脳スコアのゲイン \({ \tilde{X}}^{(d)}\) をネットワークのアクティベーションに追加します。 \({{{{\mathcal{F}}}}}^{(d)}(X)={{{\mathcal{R}}}}(X\oplus {\チルダ{X}}^{( d)})-{{{\mathcal{R}}}}(X)\);

d* は予測スコアを最大化する距離です。 \({d}^{* }={{{{\rm{argmax}}}}}_{d\in [-10,\ldots,30]}\,{{{{\mathcal{F}} }}}^{(d)}(X)\);

k* は、固定距離 d = 8 で予測スコアを最大化するネットワークの深さです。 \({k}^{* }={{{{\rm{argmax}}}}}_{k\in [0,\ldots ,12]}\,{{{{\mathcal{F}}} }}^{(8)}({X}_{k})\)。Xk は GPT-2 の k 番目の層から抽出されたアクティベーションです。 d = 8 を使用したのは、これが個人およびボクセル全体の平均で最良の予測スコアが得られる距離であるためです。

我々は、Narratives データセット 39 の脳記録 (Y で示す) を使用しました。これは、7 ~ 56 分間 (合計 4.6 時間の固有刺激)、英語で 27 の話し言葉を聞いた 345 人の個人の fMRI 記録を含む公的に利用可能なデータセットです。 元のデータセットからの前処理された fMRI 信号を、空間平滑化 (リポジトリでは「afni-nosmooth」と呼ばれます) なしで、TR = 1.5 秒でサンプリングして使用します。 前処理ステップは fMRIPrep79 を使用して実行されました。 時間的フィルタリングは適用されませんでした。 結果として得られた前処理により、表面に投影され、「fsaverage」テンプレート脳にモーフィングされた皮質ボクセルの分析が行われました。 以降、簡単にするためにこれらをボクセルと呼びます。 元の論文で示唆されているように、一部の個別ストーリーのペアはノイズのために除外され、合計 304 人の個人と 622 の個別ストーリーのペアと 4 時間の固有の音声素材が得られました。

私たちは、fMRI 記録を、個人に提示された同じ文章によるいくつかの事前トレーニング済み深層言語モデル入力の活性化と比較しました。 明確にするために、私たちは主に、以前のコンテキストを考慮して単語を予測するように訓練された高性能因果言語モデルである GPT-2 に焦点を当てました。 GPT-2 は 12 個の Transformer モジュール 1、2 で構成されており、それぞれが「レイヤー」と呼ばれ、1 つの非文脈単語埋め込みレイヤーに積み重ねられています。 Huggingface80 の事前トレーニング済みモデル (800 万の Web ページでトレーニングされた 15 億のパラメーター) を使用しました。

実際には、ネットワークの k 番目の層から M 語 w のシーケンスによって引き起こされるアクティベーション X を抽出するために、(1) シーケンス w のテキスト転写をフォーマットします ('-' や重複マークなどの特殊な句読点を置き換えます)。 ?.' をドットで区切ります)、(2) Huggingface トークナイザーを使用してテキストをトークン化し、(3) トークンを使用してネットワークを入力し、(4) 層 k から対応するアクティベーションを抽出します。 これにより、サイズ M × U のベクトルが生成されます。M はワード数、U はレイヤーごとのユニット数です (つまり、U = 768)。 ネットワークの制約されたコンテキスト サイズを考慮すると、各単語は最大 1,024 個の以前のトークンとともにネットワークに連続して入力されました。 たとえば、3 番目の単語のベクトルはネットワークに (w1, w2, w3) を入力して計算されましたが、最後の単語のベクトル wM はネットワークに (wM−1,024,…,wM) を入力して計算されました。 物語の音声録音とそのテキスト転写の間の整合性は、元の Narratives データベースで提供されています39。

以前の研究 7、42、56 に従って、個々の s とボクセル v について、(1) 音声ストーリーに応じた fMRI 活性化 Y(s,v) と (2) 深部の活性化 X の間のマッピングを評価しました。同じストーリーのテキストトランスクリプトを含むネットワーク入力。 この目的を達成するために、トレーニング セットに線形リッジ回帰 W を当てはめて、ネットワークの活性化を考慮した fMRI スキャンを予測しました。 次に、保持されたセットで予測された fMRI スキャンと実際の fMRI スキャンの間のピアソン相関を計算することで、このマッピングを評価しました。

W は適合線形投影、corr はピアソン相関、X は GPT-2 の活性化、Y(s,v) は 1 つのボクセル v における 1 人の個人 s の fMRI スキャンであり、どちらも同じ保持されたストーリーによって引き起こされます。 。

実際には、Huth et al.42 に従って、6 つの遅延 (0 ~ 9 秒、TR = 1.5 秒) を備えた有限インパルス応答 (FIR) モデルのおかげで、遅い大胆な応答をモデル化しました。 Huth et al.42に従って、fMRIと言語モデルのサンプリング周波数と一致するように、同じTR内に提示された単語のモデル活性化を合計しました(補足図8および9)。 次に、データを標準化し、(計算上の理由により) 次元を削減した後、ℓ2 ペナルティ付き線形回帰を使用して線形マッピング W を推定しました。 scikit-learn81 を実装し、次の手順でパイプラインを使用しました: (1) 特徴の標準化 (StandardScaler を使用して sd が 1 の 0 平均に設定)、(2) 20 成分による主成分分析 (PCA) 3) ℓ2 ペナルティ付き線形回帰 (scikit-learn の RidgeCV)。 補足図3cでは、PCAを使用せずに主な分析を再現しました(脳スコアと予測効果はPCAによってわずかに過小評価されました)。 RidgeCV の正則化ハイパーパラメータは、各ボクセルと各トレーニングフォールドの対数間隔 10-1 ~ 108 の 10 個の可能な値の間で、ネストされた Leave-One-Out 交差検証を使用して選択されました。

独立したパフォーマンス評価を可能にする外部相互検証スキームは、fMRI 時系列を 5 つの連続するチャンクに分割することで得られる 5 つの分割を使用します。 5 つのテスト分割で平均されたピアソン相関は「脳スコア」と呼ばれ、\({{{{\mathcal{R}}}}}^{(s,v)}(X)\) で表されます。 これは、同じ言語刺激に応答した、活性化空間 X と 1 つの個人 s の脳との間のマッピングを 1 つのボクセル v で測定します。

図2a、bでは、脳スコアは各(個々のボクセル)ペアに対して計算されました。 次に、分析に応じて、個人 (図 2a) および/またはボクセル (図 2b) の脳スコアを平均しました。 簡単にするために、\({{{\mathcal{R}}}}(X)\) を個人および/またはボクセル全体で平均した脳スコアとして表します。

私たちは、予測表現を追加することで脳活動を予測する能力が向上するかどうかをテストしました。 この目的のために、ディープ ネットワーク自体は変更しませんでしたが、エンコード モデルの入力、つまり予測ウィンドウに予測表現を追加しました。 \({\widetilde{X}}^{(d)}\) で示される距離 d の予測ウィンドウは、ネットワークによる 7 つの連続した単語のアクティブ化を連結したもので、最後の単語は現在の単語から距離 d の位置にあります。言葉。 正確には、距離 d にある単語 wn の予測ウィンドウは、単語 wn + d−6, …, wn + d によって引き起こされるネットワークの活性化を連結したものです。 したがって、

⊕ は連結演算子、M はトランスクリプト w の単語数です (補足図 9)。 d は負の値になる可能性があることに注意してください。その場合、予測ウィンドウには過去の情報のみが含まれます。 特に明記されていない限り、予測ウィンドウは GPT-2 の 8 番目の層から抽出されたアクティベーション X から構築されました。 図 3 では、GPT-2 のさまざまな層 k から抽出されたアクティベーション Xk から予測ウィンドウが構築されています。 \({\widetilde{X}}_{k}^{(d)}\) を対応する予測ウィンドウとして示しました。 図 4 では、GPT-2 の構文 (Xsyn) および意味論 (Xsem) のアクティベーションから予測ウィンドウが構築されています。

各距離 d、個々の s、およびボクセル v について、ゲインである「予測スコア」 \({{{{\mathcal{F}}}}}^{(d,s,v)}\) を計算しました。予測ウィンドウを現在の GPT-2 活性化に連結するときの脳スコア。 したがって、

X と \(\tilde{X}\) の次元を一致させるために、マッピングの計算に使用される PCA は、2 つの特徴を連結する前に、X と \(\tilde{X}\) に対して個別にトレーニングされました。つまり、 \( {{{\mathcal{F}}}}(X)={{{\mathcal{R}}}}({{{\rm{PCA}}}}(X)+{{{\rm{PCA} }}}(\チルダ{X}))-{{{\mathcal{R}}}}({{{\rm{PCA}}}}(X))\)。

予測範囲が皮質階層に沿って変化するかどうかをテストするために、予測スコアを最大化する距離を推定しました。 正確には、個々の s とボクセル v の最適な「予測距離」 d* は次のように定義されました。

X を言語モデルの活性化、\({{{{\mathcal{F}}}}}^{(d,s,v)}\) を個々の s とボクセル v の距離 d での予測スコアとして使用します。 (式(3))。 次に、予測距離 d* は、分析に応じて個人および/またはボクセル全体で平均化されました。

現在の分析は、予測スコアが平坦ではない脳領域にのみ関係します。 実際、平坦な曲線を最大化する距離を計算することは誤解を招く可能性があります。 したがって、図 2e では、差 \({{{{\mathcal{F}}}}^{8}-{{{{\mathcal{F}}}}}^{0}\) を計算しました。各個人およびボクセルについて、個人全体にわたるウィルコクソン順位和検定で有意性を評価し、有意差のないボクセルを無視しました(P > 0.01)。

予測の深さが皮質階層に沿って変化するかどうかをテストするために、さまざまな表現の深さに対する予測スコアを計算しました。 式 (3) と (4) において、X を GPT-2 の層 k (k ∈ [0, …, 12]) から抽出された活性化 Xk に置き換えました。 次に、予測スコアを最大化する深度 (「予測深度」と呼ばれる) を計算し、次の式で与えられます。

\({{{{\mathcal{F}}}}}^{(d,s,v)}({X}_{k})={{{{\mathcal{R}}}}}^ で{(s,v)}({X}_{k}\oplus {\widetilde{{X}_{k}}}^{(d)})-{{{\mathcal{R}}}}( {X}_{k})\) (式 (3))。 簡単にするために、図2の予測スコアを最大化する固定距離d = 8(図3c、d)に焦点を当てて深さを研究しました。

X の構文要素と意味要素、つまりストーリー w に応じたアクティベーションのベクトルを抽出するために、Caucheteux et al.40 で紹介された方法を適用しました (図 4a)。 各単語について、(1) 真の未来と同じ構文 (つまり、真の未来と同じ品詞と依存関係タグ) の n = 10 個の未来を生成しましたが、セマンティクスはランダムにサンプリングされ、(2) の活性化を計算しました。 (3) 10 の将来のそれぞれのアクティベーションを平均しました。 元の論文と同じハイパーパラメータ n = 10 を使用しました。 この方法は実際には n = 7 から収束します (論文の補足図 8)。 この方法では、構文情報は含まれていますが、意味情報が欠落している平均ベクトル Xsyn を抽出できます。 意味論的活性化 Xsem = X − Xsyn は、完全な活性化 X における構文の残差です。元の論文 (図 3) では、著者らは、構文埋め込みが関連する構文情報 (品詞と文の深さ) をエンコードしていることを精査分析で確認しました。構文ツリー)と、意味情報(単語の頻度、単語の埋め込み、意味カテゴリ)がエンコードされなくなりました。

脳内の構文的および意味的予測を調査するために、GPT-2 の構文的および意味的活性化からそれぞれ予測ウィンドウを構築しました。 この目的のために、私たちはまず GPT-2 アクティベーション \({\widetilde{X}}^{(d)}\) から予測ウィンドウを構築しました。 次に、構文 \({\widetilde{X}}_{{{{\rm{syn}}}}}^{(d)}\) と意味論 \({\widetilde{X}}_{ Caucheteux et al.40 で紹介されている、連結された活性化の {{{\rm{sem}}}}^{(d)}\) コンポーネント。 最後に、構文予測スコアは、構文ウィンドウを連結するときの脳スコアの増加です。

同様に、セマンティック予測スコアは次のように計算されます。

私たちは脳全体の分析を体系的に実装し、脳内の各ボクセルのスコアを計算しました。 ただし、簡単にするために、選択した関心領域全体で平均したスコアを図 1 と 2 に報告します。 2f、g、3c。 この目的のために、私たちは Destrieux atlas82 のサブディビジョンを使用しました。 500 を超える頂点を持つ領域は、より小さな部分に分割されました。 これにより、半球あたり 142 の領域が生成され、各領域に含まれる頂点の数は 500 未満になりました。

これにより、半球あたり 142 の領域が生成され、各領域に含まれる頂点の数は 500 未満になります。

STG / STS

上側頭回/溝

asts

前方STS

mSTS

ミッドSTS

psTS

後部STS

アンギュラー / スープラマー

角状/縁上下頭頂回

IFG / IFS

下前頭回/溝

トライ/オプ

三角部 / 鰓蓋部 (IFG)

ヘシュル G / ヘシュル S

ヘシュル回・溝

私たちは単一個人および脳全体の分析を体系的に実装しました。すべてのメトリクス (脳スコア、予測スコア、予測距離、深度) が各個人とボクセルのペアに対して計算されました。 分析に応じて、個人および/またはボクセル全体で平均化されたメトリクスをレポートします。 統計は、Scipy83 の両側 Wilcoxon 順位和検定を使用して個人全体で計算され、メトリクス (または 2 つのメトリクス間の差) がゼロから有意に異なるかどうかを評価し、誤発見率 (FDR) を使用して多重比較のために補正されました。 P < 0.01 の場合、効果は有意であると報告します。 図の影付きの領域。 2、4、および 5 は、個人 (n = 304) にわたる 95% 信頼区間 (CI) に対応します。 図2および図3の箱ひげ図。 図 2 ~ 5 は、データセットの 10 個の個別のランダムなサブディビジョンで得られた効果の分布をまとめたものです。

fMRI 記録には本質的にノイズが含まれています。 説明可能な信号の量を評価するために、「ノイズ シーリング」分析を使用しました。つまり、同じストーリーに対する他の個人の反応を考慮して、各個人の脳反応 Y(s) を予測しました \(\overline{Y }\)。 脳スコアの計算と同様に処理を進め、式 (1) と同じ設定を適用しましたが、他の個人の脳の平均脳信号 \({\overline{Y}}^{(s)}=\frac{1} {| {{{\mathcal{S}}}}| }{\sum }_{{s}^{{\prime} }\ne s}{Y}^{({s}^{{\prime}ネットワークのアクティベーション X の代わりに、})}\) (サイズ T × V) を使用します。正確には:

脳スコアの計算では、Y(s) は個人の fMRI 記録を表し、スキャン中に個人が聞いたすべてのストーリーに対応します。 X は、対応する単語のコンテキスト埋め込みで構成され、各 TR 内で合計され、FIR で変換されます。 したがって、

X を GPT-2 埋め込みとして使用し、FIR を使用して Y と時間的に位置合わせします。

ノイズ シーリングの計算の場合、Y(s) は脳スコアの計算の場合と同じです。 X は、個人と同じ話を聞いた他の個人の平均 fMRI 記録で構成されます。 X と Y は同じ次元を持ち、大胆な遅延は個人間で同等であると想定されるため、X には FIR を適用しませんでした。

Y(s) は、個人と同じ話を聞いた他の個人の平均 fMRI です。

脳スコアとノイズシーリングの計算の両方について、同じ 5 重相互検証設定を使用して、X が与えられた場合に Y(s) を予測して、個々の s ごとにリッジ回帰 W(s) を当てはめました。 ピアソン相関を使用して 5 つのテスト分割で予測を連続的に評価し、分割全体の相関スコアを平均しました。 これにより、個人 (およびボクセル) ごとに 1 つの脳スコアと 1 つのノイズ上限推定値が得られました。 個人間で平均した結果を補足図10に示します。このスコアは、データセット内のノイズのレベルを考慮して取得できる最良の脳スコアの考えられる上限の1つです。

GPT-2 を微調整して長期的、高レベル、より文脈に沿った表現を予測することで、脳との類似性が高まるのでしょうか?

この疑問をテストするために、言語モデリングの損失と高レベルおよび長期の損失を組み合わせて GPT-2 を微調整しました。 次に、脳スコアを評価し、高レベルの目標が言語モデリングの目標よりも有意に高い脳スコアにつながるかどうかをテストしました。

Huggingface が提供する事前トレーニング済み GPT-2 モデルを、言語モデリングと高レベルの予測を組み合わせて微調整しました。 混合損失はハイパーパラメータ α ∈ [0,1] によってパラメータ化されました。 最小化される総損失は次の式で求められます。

\({\alpha }^{{\prime} }{{{{\mathcal{L}}}}}_{\mathrm{high-level}}=\alpha (1-{\alpha }) という制約付き^{{\prime} }){{{{\mathcal{L}}}}}_{\mathrm{言語}\ {\mathrm{モデリング}}}\)。 この場合、α を 0.5 に設定すると、損失の各項が合計損失の 50% に寄与することになります。 言語モデリングの目的は次の単語を予測し、それは次のように与えられます。

と:

クロスエントロピー損失としての CE。

f は学習された微調整モデルとして使用されます。 f は、事前トレーニングされた GPT-2 の重みで初期化されます。 したがって、 f は単語埋め込み上に積み重ねられた 12 層の Transformer ネットワークであり、各層の次元は 768 です。

\(h_{{\rm{言語}}\,{\rm{modelling}}}\) は、f の最後の層の上にある 768 から nvocab までの言語モデリング線形ヘッドとして、次の単語を予測します。

xt を入力トークンとして使用します。

xt + 1 は、入力トークンが 1 つのタイム ステップ (後続のワード) からシフトしたものです。

高レベルの目的は、現在の単語から距離 d にある単語の層 k を予測し、次の式で与えられます。

どこ:

Nk は独立した固定ネットワークです。 ここでは、Huggingface によって提供され、レイヤー k で取得された GPT-2 の事前トレーニング済みバージョンを使用します。 その重みは固定されており、トレーニングによって変化しません。

\(h_{{\rm{high}}\hbox{-}{\rm{level}}}\) は、f の最後の層 (768 から 768) の上にある線形ヘッドで、固定ネットワーク Nk の k 番目の層。現在の単語から距離 d の単語に対応します。

x は入力を表し、xt は現在の単語をマークし、xt + d は現在の単語から距離 d にある単語をマークします。

CPC は、対比予測符号化損失です84。

S を類似度メトリックとして、ytrue,negative を陰性サンプルのセットとして、ytrue,positive を陽性サンプルのセットとして使用します。

実際には、距離 d = 8 の将来の単語の層 k = 8 での隠れ状態を予測することを選択しました。層 k = 8 および d = 8 を選択したのは、それが最良の結果につながったためです (図 2d)。 CPC 損失を計算するために、τ = 0.1 をとり、コサイン類似度を類似度メトリック S として使用しました。ネガティブ キュー (サイズ 2,500) からランダムにサンプリングした 2,000 個のネガティブを使用しました。 ネガティブ キューは、現在のバッチの非ターゲット ワードに隠れ状態を追加することによって、バッチごとに更新されました。 このような隠れ状態は、層 k (Nk) の事前学習済みネットワークから抽出されました。 高レベルおよび言語モデリングの損失がトレーニングに対して固定寄与率 α および 1 − α を持つようにするには、式 (8) のパラメーター \({\alpha }^{{\prime} }\) を 100 勾配ステップごとに更新しました。 。

2 つのグラフィックス処理ユニットで 600 万のドキュメント (30 GB) から構成される、すでに前処理された英語版 Wikipedia データセット (https://huggingface.co/datasets/wikipedia) で GPT-2 を微調整しました。 デフォルトのトレーニング引数 (Adam オプティマイザー、学習率 = 0.00005、他のデフォルト パラメーターについては https://huggingface.co/docs/transformers/main_classes/trainer を参照) を備えた Huggingface の「Trainer」実装を使用しました。 メモリの制約のため、GPT-2 のコンテキスト サイズを 256 トークンに制限し、デバイスあたり 4 のバッチ サイズを使用しました (したがって、バッチおよび勾配更新あたり 2 × 4 × 256 = 1,024 トークン)。 安定性を確保するために、ネットワークの最上位層 (レイヤー 8 からレイヤー 12) を微調整し、最下位層はフリーズしたままにしました。 言語モデリングを使用してネットワーク全体を微調整すると、脳スコアが大幅に低下しました (トレーニング パラメーターが固定されている場合)。 損失は​​、1,000 個の Wikipedia 文書からなる別の評価セットで監視されました。

全言語モデリング (α = 0)、半言語モデリングおよび高レベル (α = 0.5) の損失から完全な高レベル (α = 0) まで、異なる高レベルの重み α を使用して 7 つの GPT-2 モデルを微調整しました。 1)。 トレーニング中に、約 15 個のモデル チェックポイント (0 ~ 106 の勾配更新の間で定期的にログ間隔) を保存しました。 各モデルとステップについて、同じ Narratives データセット上の連結されたレイヤー [0,4,8,12] の脳スコアを計算しました 39。 微調整中に表現がレイヤー間で「移動」する可能性があり、結果に偏りが生じる可能性があるため、0 から 12 までのすべてのレイヤーにまたがることを選択しました。 次に、ステップ全体の脳スコアを平均し、あるネットワークが別のネットワークよりもどの程度向上するかを評価しました。 図 5 では、損失にますます高レベルの予測を追加した場合の、個人間の平均化された利益を報告します。

研究デザインの詳細については、この記事にリンクされている Nature Portfolio Reporting Summary を参照してください。

Narratives データセット 39 は、OpenNeuro https://openneuro.org/datasets/ds002345/versions/1.1.4 で公開されています。

すべての分析は、Python と scikit-learn81 を使用して実行されました。 fMRI データは nilearn (https://nilearn.github.io/stable/index.html)、mne-python85,86,87,88、freesurfer (https://surfer.nmr.mgh.harvard.edu) で分析されました。 /)。 深層言語モデルは、トランスフォーマー ライブラリ 80 を使用して分析されました。 統計的有意性は、Scipy83 を使用して評価されました。

Vaswani、A. et al. 必要なのは注意力だけです。 神経情報処理システムの進歩、Vol. 30 (カラン アソシエイツ、2017)。

ラドフォード、A.ら。 言語モデルは教師なしマルチタスク学習者 (2019) です。

ブラウン、TB et al. 言語モデルは少数回の学習です。 神経情報処理システムの進歩、Vol. 33、1877-1901 (Curran Associates、2020)。

Fan, A.、Lewis, M.、および Dauphin, Y. 階層型ニューラル ストーリーの生成。 計算言語学協会第 56 回年次総会議事録 (第 1 巻: 長編論文)、889–898 (計算言語学協会、2018 年)。

Jain, S. および Huth, AG fMRI の言語エンコード モデルへのコンテキストの組み込み。 プロセスで。 第 32 回神経情報処理システム会議 (NeurIPS 2018)、Vol. 31、(カランアソシエイツ、2018)。

Toneva, M. & Wehbe, L. 自然言語処理 (脳内) による自然言語処理 (機械内) の解釈と改善。 神経情報処理システムの進歩、Vol. 32 (カラン アソシエイツ、2019)。

コーシュトー、C. & キング、J.-R. 自然言語処理では、脳とアルゴリズムが部分的に収束します。 コミューンバイオル。 5、134(2022)。

シュリンプ、M.ら。 言語のニューラル アーキテクチャ: 統合モデリングは予測処理に収束します。 米国科学アカデミー紀要、Vol. 118、e2105646118 (米国科学アカデミー紀要、2020)。

Toneva, M.、Mitchell, TM & Wehbe, L. 計算制御と自然テキストを組み合わせることで、意味構成の新しい側面が明らかになります。 ナット。 計算します。 科学。 2、745–757 (2022)。

論文 PubMed PubMed Central Google Scholar

Reddy, AJ & Wehbe, L. 人間の脳における構文表現: 努力ベースの指標を超えて。 bioRxiv https://doi.org/10.1101/2020.06.16.155499 (2021) でプレプリント。

ゴールドスタイン、A. et al. 人間の言語処理と深層言語モデルの共通の計算原理。 ナット・ニューロシ。 25、369–380 (2022)。

論文 CAS PubMed PubMed Central Google Scholar

ミレット、J.、他。 自己教師あり学習による脳内音声処理の現実的なモデルを目指して。 神経情報処理システムの進歩 (NeurIPS、2022)。

Holtzman, A.、Buys, J.、Maxwell Forbes, LD & Choi, Y. 神経文書変性の興味深い事例。 学習表現に関する国際会議(2020)にて。

Wiseman, S.、Shieber, SM、Rush, AM データからドキュメントへの生成における課題。 自然言語処理における経験的手法に関する 2017 年会議議事録、2253–2263。 (計算言語学協会、2017)。

Thakur, N.、Reimers, N.、Rückle, A.、Srivastava, A. & Gurevych, I. BEIR: 情報検索モデルのゼロショット評価のための異種ベンチマーク。 第 35 回神経情報処理システム データセットおよびベンチマーク トラックに関する会議 (ラウンド 2) (2021)。

ラッフェル、C.ら。 統合されたテキストからテキストへの変換機能を使用して転移学習の限界を探ります。 J.マッハ。 学ぶ。 解像度 21、140 (2020)。

Google スカラー

Krishna, K.、Roy, ​​A.、Iyyer, M. ハードルが長文の質問応答を進めます。 計算言語学協会北米支部の 2021 年会議議事録: 人間の言語技術、4940–4957 (計算言語学協会、2021)。

Lakretz、Y.ら。 LSTM 言語モデルにおける数値および構文単位の出現。 計算言語学協会北米支部の 2019 年会議議事録: 人間の言語技術、第 1 巻 (長文および短文)、11 ~ 20 (計算言語学協会、2019 年)。

Arehalli, S. および Linzen, T. ニューラル言語モデルは、すべてではありませんが、合意誘引効果の一部を捕捉します。 PsyArXiv https://doi.org/10.31234/osf.io/97qcg (2020) でプレプリント。

Lakretz、Y.ら。 RNN は再帰的に入れ子になった主語と動詞の一致を学習できますか? arXiv https://doi.org/10.48550/arXiv.2101.02258 (2021) でプレプリント。

Baroni, M. 現代の人工ニューラル ネットワークにおける言語の一般化と構成性。 フィロス。 トランス。 R. Soc. ロンド。 Bバイオル。 科学。 375、20190307 (2020)。

論文 PubMed Google Scholar

レイク、BM & マーフィー、GL 心と機械における単語の意味。 サイコル。 Rev. Advance オンライン出版物 https://doi.org/10.1037/rev0000297 (2021)。

マーカス、G. Gpt-2 と知性の性質。 グラデーション https://thegradient.pub/gpt2-and-the-nature-of-intelligence/ (2020)。

Warstadt, A. と Bowman, SR 人工ニューラル ネットワークが人間の言語習得について教えてくれること。 arXiv https://doi.org/10.48550/arXiv.2208.07998 (2022) でプレプリント。

Rumelhart、DE & McClelland、JL 文字認識におけるコンテキスト効果のインタラクティブな活性化モデル: パート 2。コンテキスト強化効果とモデルのいくつかのテストと拡張。 サイコル。 改訂 89、60–94 (1982)。

論文 CAS PubMed Google Scholar

Rao, RP & Ballard, DH 視覚野における予測コーディング: いくつかの超古典的な受容野効果の機能的解釈。 ナット。 神経科学。 2、79–87 (1999)。

論文 CAS PubMed Google Scholar

Friston, K. & Kiebel, S. フリーエネルギー原理に基づく予測コーディング。 フィロス。 トランス。 R. Soc. ロンド。 Bバイオル。 科学。 364、1211–1221 (2009)。

論文 PubMed PubMed Central Google Scholar

Wacongne, C. et al. 人間の皮質における予測と予測誤差の階層の証拠。 手順国立アカデミー。 科学。 USA 108、20754–20759 (2011)。

論文 CAS PubMed PubMed Central Google Scholar

Garrido, MI、Kilner, JM、Stephan, KE & Friston, KJ ミスマッチの否定性: 根底にあるメカニズムのレビュー。 クリン。 神経生理学。 120、453–463 (2009)。

論文 PubMed PubMed Central Google Scholar

Willems、RM、Frank、SL、Nijhof、AD、Hagoort、P. & van den Bosch、A. 自然言語理解中の予測。 セレブ。 コーテックス 26、2506 ~ 2516 年。

論文 PubMed Google Scholar

Lopopolo, A.、Frank, SL、van den Bosch, A. & Willems, RM 確率的言語モデル (SLM) を使用して、脳内の語彙、構文、音韻情報処理をマッピングします。 PLoS ONE 12、e0177794 (2017)。

論文 PubMed PubMed Central Google Scholar

オカダ、K.、マッチン、W. & ヒコック、G. 音声生成中の聴覚皮質における予測コーディングの神経的証拠。 サイコン。 ブル。 改訂第 25 巻、423–430 (2018)。

論文 PubMed Google Scholar

Shain, C.、Blank, IA、van Schijndel, M.、Schuler, W. & Fedorenko, E. fMRI は、自然主義的な文章理解中の言語固有の予測コーディングを明らかにします。Neuropsychologia 138、107307 (2020)。

論文 PubMed Google Scholar

Heilbron, M.、Armeni, K.、Schoffelen, J.-M.、Hagoort, P. & de Lange, F. 自然言語理解における言語予測の階層。 手順国立アカド。 科学。 USA 119、e2201968119 (2022)。

論文 CAS PubMed PubMed Central Google Scholar

Heilbron, M.、Ehinger, B.、Hagoort, P.、de Lange, FP ディープ ニューラル言語モデルを使用した自然主義的な言語予測の追跡。 認知計算神経科学会議にて(2019年)。

Donhauser, PW & Baillet, S. 予測音声処理のための 2 つの異なるニューラル タイムスケール。 ニューロン 105、385–393 (2020)。

記事 Google Scholar

Mousavi, Z.、Kiani, MM、および Aghajan, H. EEG および MEG データにおける驚きの脳の署名。 bioRxiv https://doi.org/10.1101/2020.01.06.895664 (2020) でプレプリント。

Forseth、KJ、Hickok、G.、Rollo、PS、Tandon、N. 人間の聴覚皮質における言語予測メカニズム。 ナット。 共通。 11、5240 (2020)。

論文 CAS PubMed PubMed Central Google Scholar

ナスターゼ、SA et al. ナラティブ: 自然主義的な言語理解のモデルを評価するための fMRI データ。 科学。 データ8、250(2021)。

論文 PubMed PubMed Central Google Scholar

コーシュトー、C.、グラムフォート、A.、キング、J.-R. 深いネットワークを使用して脳内の構文と意味論を解きほぐします。 第 38 回機械学習国際会議議事録、1336 ~ 1348 年 (PMLR、2021)。

Wehbe, L.、Vaswani, A.、Knight, K. & Mitchell, T. 言語の文脈ベースの統計モデルを読書中の脳活動と整合させる。 プロセスで。 2014 年自然言語処理における経験的手法に関する会議 (EMNLP)、233–243 (計算言語学協会、2014 年)。

Huth、AG、de Heer、WA、Griffiths、TL、Theunissen、FE、Gallant、JL 自然な音声は、人間の大脳皮質をタイル状に並べた意味論的マップを明らかにします。 ネイチャー 532、453–458 (2016)。

論文 PubMed PubMed Central Google Scholar

Toneva, M.、Mitchell, TM & Wehbe, L. 単語の組み合わせから現れる意味は、空間内では確実に局在化できますが、時間内では定位できません。 bioRxiv https://doi.org/10.1101/2020.09.28.316935 (2020) でプレプリント。

フェドレンコ、E.ら。 文の意味の構築の神経相関。 手順国立アカド。 科学。 USA 113、E6256–E6262 (2016)。

論文 CAS PubMed PubMed Central Google Scholar

フェルマン、DJ およびヴァン・エッセン、DC 霊長類の大脳皮質における分散階層処理。 セレブ。 Cortex 1、1–47 (1991)。

論文 CAS PubMed Google Scholar

Lerner, Y.、Honey, CJ、Silbert, LJ & Hasson, U. ナレーションによるストーリーを使用した、時間受容窓の階層の地形図マッピング。 J. Neurosci. 31、2906–2915 (2011)。

論文 CAS PubMed PubMed Central Google Scholar

Kell、AJE、Yamins、DLK、Shook、EN、Norman-Haignere、SV & McDermott、JH タスクに最適化されたニューラル ネットワークは、人間の聴覚行動を複製し、脳の反応を予測し、皮質の処理階層を明らかにします。 ニューロン 98、630–644 (2018)。

記事 Google Scholar

Mesgarani, N.、Cheung, C.、Johnson, K. & Chang, EF 人間の上側頭回における音声特徴エンコーディング。 サイエンス 343、1006–1010 (2014)。

論文 CAS PubMed PubMed Central Google Scholar

Hickok, G. & Poeppel, D. 音声処理の皮質組織。 ナット。 神経科学牧師。 8、393–402 (2007)。

論文 CAS PubMed Google Scholar

Jawahar, G.、Sagot, B.、Seddah, D. BERT は言語の構造について何を学びますか? プロセスで。 第 57 回計算言語学協会年次総会、3651–3657 (計算言語学協会、2019)。

Manning, CD、Clark, K.、Hewitt, J.、Khandelwal, U.、Levy, O. 自己監視によって訓練された人工ニューラル ネットワークにおける創発言語構造。 手順国立アカド。 科学。 USA 117、30046–30054 (2020)。

論文 CAS PubMed PubMed Central Google Scholar

ベルマン、R. 動的プログラミング。 サイエンス 153、34–37 (1966)。

論文 CAS PubMed Google Scholar

Devlin, J.、Chang, M.-W.、Lee, K. & Toutanova, K. BERT: 言語理解のための深い双方向トランスフォーマーの事前トレーニング。 計算言語学協会北米支部の 2019 年会議議事録: 人間の言語技術、1、4171–4186、(計算言語学協会、2019 年)。

Liu、Y.ら。 RoBERTa: 堅牢に最適化された BERT 事前トレーニング アプローチ。 arXiv https://doi.org/10.48550/arXiv.1907.11692 (2019) のプレプリント。

クラーク、K.、ルオン、M.-T. & Le、QV & Manning、CD ELECTRA: テキスト エンコーダーをジェネレーターではなくディスクリミネーターとして事前トレーニングします。 arXiv https://doi.org/10.48550/arXiv.2003.10555 (2020) でプレプリント。

コーシュトー、C.、グラムフォート、A.、キング、J.-R. 深層言語アルゴリズムは、脳の活動から意味の理解を予測します。 Sci Rep. 12、16327 (2022)。

論文 CAS PubMed PubMed Central Google Scholar

ギルバート、SJ & バージェス、PW 執行役員機能。 カー。 バイオル。 18、R110–R114 (2008)。

論文 CAS PubMed Google Scholar

Shallice, T. & Burgess, P. 人間の前頭葉損傷後の戦略適用における欠陥。 Brain 114、727–741 (1991)。

論文 PubMed Google Scholar

ワン、L.ら。 左前頭側頭言語階層にわたる動的予測コーディング: MEG、EEG、および fMRI からの証拠。 bioRxiv https://doi.org/10.1101/2021.02.17.431452 (2021) でプレプリント。

Lee, CS、Aly, M. & Baldassano, C. 脳内の時間的に構造化されたイベントの予測。 eLife 10、e64972 (2021)。

論文 CAS PubMed PubMed Central Google Scholar

コーシュトー、C.、グラムフォート、A.、キング、J.-R. モデルに基づいた脳活動の分析により、305 人の被験者の言語の階層が明らかになりました。 プロセスで。 EMNLP 2021、自然言語処理における経験的手法に関する会議 3635–3644 (計算言語学協会、2021)。

Vidal, Y.、Brusini, P.、Bonfieni, M.、Mehler, J. & Bekinschtein, TA 音声のような刺激を使用した、抽象的なルールの違反に対する神経信号。 eNeuro 6、ENEURO.0128-19.2019 (2019)。

ネルソン、MJ 他文処理中の句構造構築の神経生理学的ダイナミクス。 手順国立アカデミー。 科学。 USA 114、E3669–E3678 (2017)。

論文 CAS PubMed PubMed Central Google Scholar

Ding, N.、Melloni, L.、Zhang, H.、Tian, X.、Poeppel, D. 接続された音声における階層的言語構造の皮質追跡。 ナット。 神経科学。 19、158–164 (2016)。

論文 CAS PubMed Google Scholar

Jackendoff, R. & Jackendoff, RS 『言語の基礎: 脳、意味、文法、進化』 (オックスフォード大学出版局、2002 年)。

シェイン、C.ら。 fMRI における「構成要素の長さ」の影響は、抽象的な構文処理の証拠を提供しません。 bioRxiv https://doi.org/10.1101/2021.11.12.467812 (2021) でプレプリント。

JL マクレランド & デラウェア州ルメルハート 文字認識における文脈効果の対話型活性化モデル: I. 基本的な発見の説明。 サイコル。 改訂 88、375–407 (1981)。

記事 Google Scholar

ヘイル、JT 他。 言語処理の神経計算モデル。 アン。 言語学者牧師。 8、427–446 (2022)。

記事 Google Scholar

Jernite, Y.、Bowman, SR & Sontag, D. 教師なしの文表現を高速に学習するための談話ベースの目標。 arXiv https://doi.org/10.48550/arXiv.1705.00557 (2017) のプレプリント。

ルイス、M.ら。 BART: 自然言語の生成、翻訳、理解のためのシーケンス間の事前トレーニングのノイズ除去。 計算言語学協会の第 58 回年次総会議事録、7871–7880 (計算言語学協会、2020)。

ヤン、Z.ら。 XLNet: 言語理解のための一般化された自己回帰事前トレーニング。 『神経情報処理システムの進歩』、32 (Curran Associates、2019)。

Joshi、M.ら。 SpanBERT: スパンの表現と予測による事前トレーニングの改善。 『Transactions of the Association for Computational Linguistics』8、64–77 (2020)。

Google スカラー

セゲディ、C.ら。 畳み込みでさらに深くなります。 プロセスで。 2015 IEEE Con​​ference on Computer Vision and Pattern Recognition (CVPR)、1–9 (IEEE、2015)。

Chen, T.、Kornblith, S.、Norouzi, M. & Hinton, G. 視覚表現の対比学習のためのシンプルなフレームワーク。 第 37 回機械学習国際会議議事録、149 (2020)。

He, K.、Fan, H.、Wu, Y.、Xie, S.、Girshick, R. 教師なし視覚表現学習の勢いの対比。 arXiv https://doi.org/10.48550/arXiv.1911.05722 (2020) のプレプリント。

El-Nouby、A. et al. XCiT: 相互共分散画像変換器。 『神経情報処理システムの進歩』、34、20014–20027 (Curran Associates、2021)。

Bardes, A.、Ponce, J. & LeCun, Y. VICReg: 自己教師あり学習のための分散-不変-共分散正則化。 学習表現に関する国際会議(2022)にて。

Kepecs, A.、Uda, N.、Zariwala, HA & Mainen, ZF 神経相関、計算、および意思決定の信頼性の行動への影響。 Nature 455、227–231 (2008)。

論文 CAS PubMed Google Scholar

エステバン、O.ら。 fMRIPrep: 機能的 MRI 用の堅牢な前処理パイプライン。 ナット。 方法 16、111–116 (2019)。

論文 CAS PubMed Google Scholar

ウルフ、T.ら。 トランスフォーマー: 最先端の自然言語処理。 プロセスで。 2020 年自然言語処理における経験的手法に関する会議: システムのデモンストレーション、38 ~ 45 (計算言語学協会、2020 年)。

ペドレゴサ、F.ら。 Scikit-learn: Python での機械学習。 J.マッハ。 学ぶ。 解像度 12、2825–2830 (2011)。

Google スカラー

Destrieux, C.、Fischl, B.、Dale, A. & Halgren, E. 標準的な解剖学的命名法を使用した人間の皮質回および脳溝の自動分割。 ニューロイメージ 53、1–15 (2010)。

論文 PubMed Google Scholar

Virtanen、P. et al. SciPy 1.0: Python での科学技術コンピューティングの基本アルゴリズム。 ナット。 方法 17、261–272 (2020)。

論文 CAS PubMed PubMed Central Google Scholar

ヘナフ、OJ et al. コントラスト予測コーディングによるデータ効率の高い画像認識。 第 37 回機械学習国際会議議事録、4182–4192 (PMLR、2020)。

グラムフォート、A.ら。 MNE-Python を使用した MEG および EEG データ分析。 フロント。 神経科学。 7、267 (2013)。

論文 PubMed PubMed Central Google Scholar

Dai、Z.ら。 Transformer-XL: 固定長のコンテキストを超えた注意深い言語モデル。 計算言語学協会第 57 回年次総会議事録、2978 ~ 2988 年 (計算言語学協会、2019)。

Nunez-Elizalde、AO、Huth、AG、Gallant、JL 非球面多変量正規事前確率を使用した Voxelwise エンコード モデル。 ニューロイメージ 197、482–492 (2019)。

論文 PubMed Google Scholar

Dupré la Tour, T.、Eickenberg, M.、Nunez-Elizalde, AO & Gallant, J. 帯状リッジ回帰による特徴空間選択。 ニューロイメージ 264、119728 (2022)。

論文 PubMed Google Scholar

リファレンスをダウンロードする

このプロジェクトは、ベッテンコート・シューラー財団、フィリップ財団、FrontCog 助成金の一部によって資金提供されました。 ANR-17-EURE-0017 は、パリ科学文学大学での業績に対して JRK に贈呈されました。 資金提供者は、研究の設計、データの収集と分析、出版の決定や原稿の準備には何の役割もありませんでした。

Meta AI、パリ、フランス

シャルロット・コシュトー、アレクサンドル・グラムフォール、ジャン=レミ・キング

パリサクレー大学、インリア、原子力および代替エネルギー委員会、パリ、フランス

シャルロット・コシュトー & アレクサンドル・グラムフォール

PSL大学高等師範学校認知研究学科知覚システム研究所、CNRS、パリ、フランス

ジャン・レミ・キング

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

CC、AG、J.-RK は共同で分析を設計し、結果を解釈して論文を執筆しました。 CC は分析と実験を実行しました。

シャルロット・コシュトーまたはジャン=レミ・キングとの通信。

著者らは競合する利害関係を宣言していません。

Nature Human Behaviour は、この研究の査読に貢献してくれた Samuel Nastase と他の匿名の査読者に感謝します。

発行者注記 Springer Nature は、発行された地図および所属機関の管轄権の主張に関して中立を保っています。

補足 1 ~ 5、図。 1 ~ 10 および表 1 ~ 3。

オープン アクセス この記事はクリエイティブ コモンズ表示 4.0 国際ライセンスに基づいてライセンスされており、元の著者と情報源に適切なクレジットを表示する限り、あらゆる媒体または形式での使用、共有、翻案、配布、複製が許可されます。クリエイティブ コモンズ ライセンスへのリンクを提供し、変更が加えられたかどうかを示します。 この記事内の画像またはその他のサードパーティ素材は、素材のクレジットラインに別段の記載がない限り、記事のクリエイティブ コモンズ ライセンスに含まれています。 素材が記事のクリエイティブ コモンズ ライセンスに含まれておらず、意図した使用が法的規制で許可されていない場合、または許可されている使用を超えている場合は、著作権所有者から直接許可を得る必要があります。 このライセンスのコピーを表示するには、http://creativecommons.org/licenses/by/4.0/ にアクセスしてください。

転載と許可

コーシュトー、C.、グラムフォート、A.、キング、JR. 音声を聞いている人間の脳における予測コーディング階層の証拠。 Nat Hum Behav 7、430–441 (2023)。 https://doi.org/10.1038/s41562-022-01516-2

引用をダウンロード

受領日: 2022 年 3 月 31 日

受理日: 2022 年 12 月 15 日

公開日: 2023 年 3 月 2 日

発行日:2023年3月

DOI: https://doi.org/10.1038/s41562-022-01516-2

次のリンクを共有すると、誰でもこのコンテンツを読むことができます。

申し訳ございませんが、現在この記事の共有リンクは利用できません。

Springer Nature SharedIt コンテンツ共有イニシアチブによって提供