オーディオのスケーリング | 株式会社クリアバイタリティ・イノベーションズ

前の画像次の画像

MIT、MIT-IBM Watson AI Lab、IBM Researchなどの研究者らは、音声認識や物体検出などのアプリケーションで使用される機械学習モデルのパフォーマンスを向上させる、ラベルのないオーディオおよびビジュアルデータを分析するための新しい技術を開発しました。この研究では、自己教師あり学習、対比学習、およびマスクされたデータモデリングの 2 つのアーキテクチャを初めて組み合わせて、アノテーションを必要とせずにシングルおよびマルチモーダルデータでのイベント分類などの機械学習タスクを拡張することを目的としています。人間が私たちの世界をどのように理解し、認識しているか。

「人間の知識の大部分は、自己教師ありの方法で学習されます。なぜなら、私たちは常に監視信号を受け取るとは限らないからです。機械学習モデルにも同じ能力を持たせたいのです」と、MIT ポスドクの Yuan Gong 氏は言います。コンピュータサイエンスおよび人工知能研究所（CSAIL）の博士号を取得しました。

「別の言い方をすると、自己教師あり学習は、大量のラベルなしデータを学習できるため、多くの場合、初期モデルの基礎を形成します。その後、古典的な教師あり学習または強化学習を使用して、モデルを微調整することができます。」必要に応じて、特定のものにモデル化してください」と、MIT 上級研究員であり、MIT-IBM Watson AI Lab のメンバーである Jim Glass 氏は言います。

コントラストオーディオビジュアルマスクオートエンコーダ（CAV-MAE）と呼ばれるこの技術は、大規模な YouTube データセットでトレーニングすることによって、音響および視覚データから意味のある潜在表現を抽出して高次元空間にマッピングする方法を学習できるニューラルネットワークの一種です。オーディオとビデオの 10 秒クリップ。研究者らは、この技術は他の方法ではできない方法でオーディオデータとビジュアルデータの間の関係を明示的にモデル化するため、これまでのアプローチよりも効果的であると述べている。

Gong 氏と Glass 氏の研究に参加するのは、MIT の大学院生 Andrew Rouditchenko 氏と Alexander H. Liu 氏、テキサス大学オースティン校の David Harwath PhD '18、MIT-IBM Watson AI Lab メンバーの Leonid Karlinsky 氏と Hilde Kuehne 氏です。キューネ氏はフランクフルトのゲーテ大学にも所属しています。この方法は最近、学習表現に関する国際会議で発表されました。

共同かつ調整されたアプローチ

CAV-MAE は「予測による学習」と「比較による学習」によって機能します、と Gong 氏は言います。マスクされたデータモデリング、つまり予測方法では、ビデオとその調整された音声波形を取得し、音声をスペクトログラムに変換して、両方の 75% をマスクします。マスクされていないデータはトークン化され、個別のオーディオエンコーダーとビジュアルエンコーダーに供給されてから、統合エンコーダー/デコーダーに入力され、そこでモデルは欠落データの回復を求められます。結果として得られる再構築された予測と元のオーディオビジュアルの組み合わせとの差 (再構築損失) を使用して、パフォーマンスを向上させるためにモデルをトレーニングします。この例としては、ピアノのビデオの一部とピアノ音楽のスペクトログラムの一部をカバーし、モデルにマスクされた入力を決定するよう依頼することが考えられます。残念ながら、この方法ではビデオとオーディオのペア間の関連性を捕捉できない可能性があります。一方、対照学習ではこれを活用しますが、ビデオの背景など、モダリティ固有の情報の一部が破棄される可能性があります。

対照学習は、互いに近い類似した表現をマッピングすることを目的としています。たとえば、モデルは、さまざまなオウムのさまざまなビデオとオーディオデータを互いに近くに配置し、ギター演奏のビデオとオーディオのペアからは遠くに配置しようとします。マスクされた自動エンコーディングと同様の方法で、オーディオとビジュアルのペアが別々のモダリティエンコーダーに渡されます。ただし、オーディオコンポーネントとビジュアルコンポーネントは、モデルがプーリングとコントラスト損失を実行する前に、ジョイントエンコーダー内に別々に保持されます。このようにして、対比学習では、各オーディオまたはビデオのうち、互いに最も関連性の高い部分を特定しようとします。たとえば、誰かが話しているビデオがあり、対応するオーディオクリップに音声が含まれている場合、オートエンコーダーは話者の口の動きと話されている単語を関連付けることを学習します。次に、これらの入力が互いに近くで表現されるようにモデルのパラメーターを調整します。最終的に、CAV-MAE メソッドは、表現強度が類似するように、最初のステップとしてマスキングを使用した複数の順方向データストリーム、モダリティ固有のエンコーダー、およびレイヤー正規化を使用して両方の技術を組み合わせます。

「その後、提案された CAV-MAE を、マスクされたオートエンコーダーのみでトレーニングされたモデルおよび対照学習のみでトレーニングされたモデルと比較したいと考えました。マスクされたオートエンコーダーと対照学習を組み合わせることで、ある程度のパフォーマンスが得られることを示したかったからです。」「改善が見られました」と Gong 氏は言います。「そして結果は、明らかな改善があるという私たちの仮説を裏付けています。」

研究者らは、標準 AudioSet (20K および 2M) を使用したオーディオビジュアル検索およびオーディオビジュアルイベント分類タスクに関する他の最先端の手法に対して、CAV-MAE と、コントラスト損失やマスクされたオートエンコーダを使用しない手法をテストしました。 VGGSound データセット - ラベル付きのリアルな短いクリップ。複数のサウンドが含まれる可能性があります。オーディオビジュアル検索とは、モデルがクエリペアのオーディオコンポーネントまたはビジュアルコンポーネントを認識し、不足しているコンポーネントを検索することを意味します。イベントの分類には、人の歌や車の運転など、データ内のアクションや音の識別が含まれます。

全体として、彼らは、対照学習とマスクされたデータモデリングが補完的な方法であることを発見しました。 CAV-MAE は、同等の計算量を備えたモデルと比較して、イベント分類のパフォーマンスにおいて、以前の手法 (完全に自己教師付きの事前トレーニングを使用) を約 2% 上回ることができ、さらに驚くべきことに、業界レベルの計算リソースを備えたモデルと同等かそれを上回りました。チームのモデルは、対照的な損失のみでトレーニングされたモデルと同様にランク付けされました。そして驚くべきことに、マルチモーダルデータを CAV-MAE 事前トレーニングに組み込むことで、教師あり学習 (いくつかのラベル付きデータを使用) による単一モダリティ表現の微調整と、音声のみのイベント分類タスクのパフォーマンスが大幅に向上するとチームは述べています。。これは、人間と同様に、マルチモーダル情報が、音声または視覚のみのタスクであっても、追加の「ソフトラベル」ブーストを提供することを示しています。たとえば、モデルがエレクトリックギターとアコースティックギターのどちらを探しているのかを理解するのに役立ちます。つまり、より豊富な監視信号です。

「人々は、さまざまなオーディオとビジュアルのストリームの情報を組み合わせるこのモデルの優雅さを気に入っていると思います。これにはコントラストと再構築の損失があり、同様のデータで評価されたモデルと比較して、範囲全体で明らかに非常に優れています。」これらのタスクは重要です」と Glass 氏は言います。

これに基づいて、「特別なことの 1 つは、私たちのモデルが分類と検索の両方を実行できることですが、これは一般的ではありません」と Gong 氏は付け加えました。「この研究を行う前は、これらのメソッドは別々に使用されていましたが、この研究を行った後は、ほとんどの視聴覚学習フレームワークが、暗黙的または明示的に、収縮損失とマスクされたオートエンコーダーを一緒に使用していることがわかりました。」

自己監視型視聴覚学習を私たちの世界にもたらす

研究者らは、コントラストオーディオビジュアルマスクオートエンコーダ（CAV-MAE）の貢献が、シングルモダリティからマルチモダリティへますます移行し、オーディオビジュアル融合を必要とする、または活用するアプリケーションにとって重要なマイルストーンであり、前進であると考えています。彼らは、いつの日かスポーツ、教育、エンターテイメント、自動車、公共の安全などの分野での行動認識に使用できるだろうと仮説を立てています。また、いつか他の手段にも拡張される可能性があります。現時点では、「視聴覚データのみに適用するのは限界かもしれないが、機械学習のトレンドであるマルチモーダル学習をターゲットにしている」とゴン氏は言う。「人間として、私たちはマルチモダリティを持っています。嗅覚や触覚など、視聴覚だけでなく多くのことを持っています。そのため、AIを構築しようとするとき、必ずしも生物学的な観点からではなく、何らかの形で人間を模倣しようとします。この方法は他の未踏の手法に一般化できる[可能性がある]。」

機械学習モデルが私たちの生活においてますます重要な役割を果たし続けるにつれて、このような技術の価値はますます高まっていくでしょう。

この研究は、MIT-IBM Watson AI Lab によって支援されました。

前の項目次の項目

共同かつ調整されたアプローチ自己監視型視聴覚学習を私たちの世界にもたらす