メタ AI の斬新な設定がトランスフォーマーの構造と進化を明らかにする | 株式会社クリアバイタリティ・イノベーションズ

新しい論文「Birth of a Transformer: A Memory Viewpoint」では、メタ AI 研究チームは、LLM のグローバル学習とコンテキスト内学習の洞察を提供することを目的として、トランスフォーマー言語モデルの構造と進化を調査するための新しい合成セットアップを紹介しています。

近年、大規模言語モデル (LLM) は、トレーニングデータから膨大な量の「グローバル」知識を学習する強力な機能を実証し、与えられたコンテキストやプロンプトに基づいて新しい情報に迅速に適応する能力を示しています。優れた「コンテキスト内」学習機能にもかかわらず、その内部メカニズムはまだ解明されていないため、現実世界のアプリケーションの信頼性が脅かされています。

新しい論文「Birth of a Transformer: A Memory Viewpoint」では、メタ AI 研究チームは、トランスフォーマー言語モデルの構造と進化を調査するための新しい合成セットアップを紹介しています。彼らの目的は、LLM のグローバル学習とコンテキスト内学習についての洞察を提供することです。

チームは主な貢献を次のように要約しています。

チームはまず合成データセットを開発し、トランスフォーマーがグローバルな知識とコンテキスト内の学習能力をどのように開発するかを調査します。このデータセットは汎用バイグラム言語モデルで構成されており、一部のバイグラムはシーケンス指定されています。したがって、トランスフォーマーモデルは、シーケンス固有のバイグラムを適切に予測するためにインコンテキスト学習に依存していますが、一般的なバイグラムは現在のトークンに基づいたグローバル統計から予測できます。

トレーニング段階でコンテキスト内メカニズムを詳細に理解するために、研究者らはランダムな初期化時に一部の層をフリーズすることで 2 層アーキテクチャをさらに簡素化しました。このような単純化により、チームは個々の重み行列のモデルを、埋め込みのペアを格納する連想メモリとして導入できるようになります。その結果、学習ダイナミクスを正確に理解できるようになります。

実証研究では、研究者らはモデルのトレーニングに勢いのあるミニバッチ SGD を使用しました。グローバルバイグラム統計は誘導ヘッドよりも速く学習される傾向があり、データ分布の変更が入力速度に大きな影響を与えることを観察しました。コンテキスト学習。

また、トレーニングのダイナミクスに関する理論的な洞察も提供し、十分なデータがあれば、連想記憶が入力からノイズを除去できることを実証しています。そして注意パターンがほぼ均一であれば、望ましい連想記憶を回復することができます。

全体として、この研究は変圧器モデルの構造と進化に関する貴重な洞察を提供します。研究チームは、次のステップでは、学習エンベディング、因数分解されたキークエリ行列、非線形フィードフォワード層などの他の側面をトランスフォーマーがどのように活用して、より豊富な設定で学習するかを検討すると主張しています。

arXiv の論文「トランスフォーマーの誕生: 記憶の視点」。

著者: ヘカテ・ヘ |編集者：チェーン・チャン

ニュースや研究の画期的な成果を見逃したくないのはわかります。人気のニュースレター「Synced Global AI Weekly」を購読して、AI の最新情報を毎週入手してください。

マシンインテリジェンス | テクノロジーと産業 | 情報と分析

あなたのメールアドレスが公開されることはありません。必須フィールドは、マークされています *

コメント *

名前

Eメール

Webサイト

フォローアップコメントを電子メールで通知します。

新しい投稿をメールで通知します。

著者編集者人気のニュースレター「Synced Global AI Weekly」を購読して、AI の最新情報を毎週入手してください。