banner
ニュース センター
専門的な知識を身につけており、有能です。

AutoDistill: 終わり

Nov 24, 2023

イリノイ大学アーバナ・シャンペーン校と Google の研究者は、ハードウェア効率の高い事前トレーニング済み自然言語処理モデルを構築するためのモデル アーキテクチャの探索と多目的最適化を統合する、エンドツーエンドの完全に自動化されたモデル抽出フレームワークである AutoDistill を紹介します。

AI を活用した言語モデルのサイズが増大し続けるにつれて、サービスコストの削減が重要な研究分野になっています。 ナレッジの蒸留は、モデル圧縮の有望かつ効果的な方法として浮上していますが、既存の蒸留方法は、今日の大規模なデータセンターでのモデルの提供に苦労する可能性があり、急速に進化するモデルの処理、提供パフォーマンスの考慮、複数の目的に向けた最適化などの課題に直面しています。 。

これらの問題に対処するために、イリノイ大学アーバナシャンペーン校と Google の研究チームは、ハードウェア効率の高い事前トレーニング済みのモデルを構築するためのモデル アーキテクチャの探索と多目的最適化を統合する、エンドツーエンドの完全に自動化されたモデル蒸留フレームワークである AutoDistill を導入しました。自然言語処理 (NLP) モデル。

チームは主な貢献を次のように要約しています。

AutoDistill は、ターゲット ハードウェア構成に合わせて最適化された、タスクに依存しない事前トレーニング済み言語モデルを生成するように設計されたエンドツーエンドのソリューションです。 AutoDistill は、事前トレーニング タスク、モデル設計空間、ターゲット ハードウェア、評価指標など、考慮すべき主要コンポーネントを表す入力としてユーザーの要件、目的、制約を受け取ります。

AutoDistill の全体的なフローには、モデルの探索、フラッシュ蒸留、評価という 3 つの主要な段階が含まれます。 モデル探索は、設計空間、評価指標、およびユーザー指定の制約を考慮して、より適切な圧縮モデルを検索するために使用されます。 次に、フラッシュ蒸留を採用して、事前トレーニング データセットと教師モデルの両方から学習する学生モデルとして最も有望な候補モデルを成長させます。 このステージは、同じ教師モデルで異なるトレーニング設定を使用した定期的な蒸留も担当します。 フラッシュ蒸留されたスチューデント モデルは、ターゲット タスクとハードウェア上で、予測精度、次の文の予測精度、ハードウェア パフォーマンスについて評価されます。 必要なメトリックがすべて収集された後、情報はモデル探索段階に戻され、そこで検索エンジンが次の反復に最適なモデルを選択します。

特に、AutoDistill は学生モデル アーキテクチャの検索をブラック ボックス最適化問題として定式化し、ベイズ最適化 (BO) アルゴリズムと Vizier (Golovin et al., 2017) のクラウドベース ブラック ボックス最適化サービスを学生アーキテクチャの検索エンジンに統合しています。検索。 研究者は、完全に自動化された統合された評価段階でターゲットのハードウェアおよびデータセンター ソフトウェア環境で学生モデルを測定することにより、有効かつ正確なハードウェア フィードバックを取得できます。

AutoDistill には、以前の微分可能ニューラル アーキテクチャ検索 (DNAS) 手法に比べていくつかの利点があります。1) NLP 事前トレーニング タスクで大規模なスーパーネットを事前にトレーニングするために多大な労力を費やす必要がありません。2) はるかに大きな設計空間を処理するためにより適切に拡張できます。 3) 異なるアーキテクチャ構成を備えた新しい目的や新しいモデルに簡単に拡張できます。

チームは AutoDistill を評価するために広範な実験を実施しました。 9 つのダウンストリーム自然言語理解タスクを含む一般言語理解評価 (GLUE) ベンチマークでは、AutoDistill は、モデル サイズが大幅に小さい BERTBASE、DistilBERT、TinyBERT6、MobileBERT よりも高い平均スコアを達成しました。 Google の TPUv4i ハードウェアでの実験では、AutoDistill で生成されたモデルは、MobileBERT と比較して、事前トレーニング精度が最大 3.2 パーセント向上し、レイテンシで最大 1.44 倍の高速化を達成しました。

全体として、AutoDistill はターゲット ハードウェアでの予測精度と処理レイテンシーの両方を改善し、次世代のハードウェア効率の高い事前トレーニング済み NLP モデルを構築する可能性と可能性を示しています。

論文「AutoDistill: ハードウェア効率の高い言語モデルを探索および抽出するためのエンドツーエンド フレームワーク」は、arXiv にあります。

著者: ヘカテ・ヘ |編集者:マイケル・サラゼン

ニュースや研究の画期的な成果を見逃したくないのはわかります。人気のニュースレター「Synced Global AI Weekly」を購読して、AI の最新情報を毎週入手してください。

マシンインテリジェンス | テクノロジーと産業 | 情報と分析

このブログは非常に有益で技術関連なので、とても気に入っています…IFO DEVELOPMENT LAUNCHPAD を共有し、視聴していただきありがとうございます

この記事は非常に有益で役に立ちます。共有してくれてありがとう!!初期交換サービスの開発

うおおおおおおおおお

あなたのメールアドレスが公開されることはありません。 必須フィールドは、マークされています *

コメント *

名前

Eメール

Webサイト

フォローアップコメントを電子メールで通知します。

新しい投稿をメールで通知します。

D

著者 編集者 人気のニュースレター「Synced Global AI Weekly」を購読して、AI の最新情報を毎週入手してください。