ChatGPT がインテリジェンスのためにできること、できないこと | 株式会社クリアバイタリティ・イノベーションズ

2022 年 11 月、ChatGPT は人工知能 (AI) 大規模言語モデル (LLM) の最有力候補として浮上し、CIA やその他の米国国防機関の注目を集めました。一般的な人工知能、つまり人間のような柔軟な推論を備えた AI は、まだ技術の限界を超えており、決して実現しない可能性があります。しかし、ほとんどの専門家は、LLM が技術的な大きな進歩であることに同意しています。一部のタスクでは有用な結果を生み出す一方で、他のタスクではまったく的外れな LLM の能力は、今後 10 年間の AI の能力と制約を垣間見ることができます。

インテリジェンスにおける ChatGPT の見通しはまちまちです。このテクノロジーは「印象的」で「恐ろしく賢い」ように見える一方で、その作成者らは「偉大さという誤解を招く印象を生み出す可能性がある」と警告している。専門家のコンセンサスがない場合、研究者と実務者は、インテリジェンスのためのテクノロジーの可能性と欠点を探求する必要があります。このギャップに対処するために、私たち (インテリジェンス分析を研究する学者と情報技術エンジニア) は、インテリジェンス分析者の作業を補完する ChatGPT (GPT-4) の機能をテストしようとしました。私たちは、コリン・パウエルの有名なリクエスト「知っていることを教えてください。知らないことを教えてください。そうすれば、あなたの考えを私に話してもいいでしょう。」を使用して予備テストを行いました。各タスクについて、読者が分析を再現して独自の結論を導き出せるように、ChatGPT からの出力が提供されます。

これらの発見に基づいて、ChatGPT とその後継は、インテリジェンスアナリストの仕事の側面 (たとえば、退屈な要約。ただし、ChatGPT が人間が認識できる方法で要約しないことは認めますが) を排除し、他の側面 (たとえば、分析製品に対する批評の生成を支援します)。これらの機能にもかかわらず、他の人たちと同様に、ChatGPT には顕著な制限 (ソーシャルネットワークの抽出など) があることに注意します。また、AI と人間のチーム化における分析的トレードクラフトスキルも変革され、「適切な質問をする」ことが「迅速なエンジニアリング」を含むように拡張されます。プロンプトエンジニアリングは、AI モデルから設定された応答を抽出するために質問やプロンプトが提示される方法を最適化するプロセスです。 LLM は、以下で説明するように、「データポイズニング」などの戦術を通じて新たなリスクも生み出します。

ChatGPT の仕組み

ChatGPT (生成事前トレーニング済みトランスフォーマー) は、与えられた情報に従ってテキストを生成する AI モデルの一種です。それは、膨大な数の台本から学び、異なるトピック間を結び付けることができる即興（即興）俳優のようなものです。 AI は、仮想の即興俳優と同様、提供された情報に限定されます。 ChatGPT は 2021 年までの情報に基づいてトレーニングされていますが、利用可能なベータテストモデルは Web からのトレーニングデータからリアルタイムで取得されます。

ChatGPT は 2 つの主なステップで「教えられます」。まず、膨大なテキストのコーパスを学習して、知識領域の基本を学習します。次に、例とガイダンスを使用して特定のタスクを実行できるように微調整します。この方法により、ユーザーの質問や発言にうまく応答できるようになります。応答の精度は、モデルに提供されるデータの品質や採用される迅速なエンジニアリング技術など、いくつかの要因によって決まります。

モデルがトレーニングデータに依存しているため、無邪気な虚偽のデータ (誤報) から意図的に虚偽のデータ (偽情報) までのリスクが生じます。 ChatGPT はトレーニングデータにバイアスを反映する可能性があり、生成された出力の公平性と客観性が歪む可能性があります。ドナルド・トランプやジョー・バイデンといった物議を醸す政治家に関する偏ったChatGPT結果に関するメディア報道は、この点を例証している。もう 1 つのリスクは、トレーニングデータを意図的に汚染する攻撃者によってモデルが「汚染」された場合です。 LLM はトレーニングデータの品質に大きく依存しているため、汚染されたデータには検出や軽減が困難な悪質なパターンが埋め込まれる可能性があります。

システムからより良い結果を得るには、ChatGPT に実行してほしいことをユーザーがどれだけうまく説明できるか (プロンプトエンジニアリングと呼ばれます) が重要です。現在の形式では、ChatGPT の出力は表面レベルであり、少なくとも重要かつ慎重なプロンプトが表示されません。

プロンプトが明確であれば、ユーザーは分析手順を生成できることがわかりました。プロンプトエンジニアリングの実例として、ロシアがウクライナとの戦争で核兵器を使用するかどうかという質問を使用して、ChatGPT にクエリを実行して、仮説を検証するための分析手法である競合仮説分析 (ACH) 手順を生成しました。

分析を生成するために、ChatGPT に ACH ステップに基づいた出力を提供するように指示しました。 (ホイヤーによる手法の定式化からの 8 つのステップを「知能分析の心理学」で提供しました。) 次に、ChatGPT に欠けている「エンリッチメント」として知られるコンテキストを提供しました。このモデルは、ロシアがウクライナへの本格的な侵攻を行う前年である 2021 年までの訓練データに基づいて開発されたことを思い出してください。次の機能強化を提供しました。

ChatGPT ではユーザーがモデルに提供できるテキストの量が制限されていますが、アナリストはさらなる強化を提供できます。

ChatGPT はプロンプトに応答して、提供されたコンテキストの影響を受けた仮説と引数のリストを生成しました。このモデルは 3 つの仮説を生成しました: (1) ロシアはウクライナで核兵器を使用する、(2) ロシアは通常戦争のみを追求する、(3) ロシアは核兵器を交渉の手段としてのみ使用する。

次にモデルはマトリックスを作成し、証拠が各仮説と一致するかどうかを示しました。 Chat GPT は人間の感覚で考えているのではなく、トレーニングデータに基づいて予測テキストを「即興」または埋めていることにもう一度注目してください。

最後に、ChatGPT は、マトリックスに基づいた分析、全体的な結論、および注目すべき将来のマイルストーンを生成しました。この例では、出力では、最も可能性の高い仮説は、ロシアが核兵器を交渉の手段としてのみ使用するだろうと指摘しています。

有能な情報アナリストであれば、これらの結果を画期的だと考える人はいないだろう。この出力は、初心者レベルのアナリストが作成し、その後継続的に改良していくような最初のドラフトに似ています。これが、このテクノロジーの現在の価値です。チャット GPT は、分析の適切な最初の開始点として機能します。たとえば、この最初の仮説テストにより、分析者は仮説を改良したり、新しい証拠源を探索したりすることができます。アナリストの思考を刺激する Chat GPT の機能は、アナリストが情報を統合し、ブレインストーミングを行い、自分の仕事を批評する際に役立ちます。

「知っていることを教えてください。」

アナリストはさまざまな情報源から現在の出来事を評価し、主要な動向を要約します。近年、データ量、特にオープンソース情報の爆発的な増加により、この作業が困難になっています。情報学者のニック・ヘアとピーター・コグヒルは、1995 年の時点で単一の二級国に関するすべてを読むには、1 日に約 20,000 語を読む必要があると指摘しました。 2015 年には、その数は 200,000 語に近くなると推定されており、2023 年にはさらに多くなるのは確実です。トムトゥーゲントハット氏が言うように、大量の情報を選別するこのタスクは、おそらく AI が現在の形で最もよく支援できるタスクです。最近注目されたイギリスの安全保障担当大臣。

ChatGPT は、ユーザーがベストプラクティス (例: 高品質のデータの使用、優れた迅速なエンジニアリング) に従うことを前提として、複数のソースからの情報の迅速な合成に期待を示しています。たとえば、ChatGPT は、統一司法試験や大学院記録試験 (GRE) など、大量の情報の検索と要約を必要とする一連の評価に合格しています。

ChatGPT は、注意深くプロンプトを表示することで、データ内の傾向やパターンを強調表示するプロセスを合理化し、できればアナリストをより適切な情報に基づいた結論に導くことができます。 ChatGPT の機能をテストするために、ChatGPT を使用してニュース記事を迅速に要約しました。開発と洞察のタイムリーな概要を 12 件配信し、ボトムラインアップフロント (BLUF) 形式で情報を提示しました。私たちは、さまざまなニュースソースからの情報を使用して、ワシントンで最近開催されたTikTok公聴会の影響を強調するメモを作成しました。

まず、AI にその役割を促し (「あなたは、複数のソースから簡潔で効果的な迅速な BLUF 戦術レポートを作成するように訓練された AI です」)、主要な調査結果と推奨アクションを含む BLUF 形式でレポートを作成するよう促しました。その後、ニュース記事を提供させていただきました。上で述べたように、Chat GPT はモデルを強化するために入力テキストの量を制限します。この例では、要約用に最大 2 つの記事のみを追加しました。ただし、独自の LLM にアクセスできる組織が、さらに大量のデータを処理できることは想像に難くありません。

Chat GPT は、コンテキストから得られた情報で構成され、プロンプトの目的に沿って生成された BLUF のようなメモを生成しました。経過時間、コスト、使用されたトークンは多数のインスタンスにわたって一貫しており、出力は同様の品質でした。

「キーポイント」セクションでは要点を強調し、「エグゼクティブサマリー」では主な調査結果と推奨事項を提供します。さらに、ChatGPT は、ソースに基づいて生成されたコンテンツに文末脚注と APA スタイル参照を関連付けることを任務としました。

ChatGPT とその後継は、最新の情報を維持しようとする「ビッグデータ」の問題に対処するアナリストを支援する時間を節約する手段を提供します。上で述べたように、出力の全体的な精度は、LLM に提供されるコンテキストの品質と詳細に直接比例します。コンピューターサイエンスの古い格言にあるように、「ゴミは入ったらゴミは出る」。

サイバーセキュリティの専門家は、自動化されたリアルタイムの脅威レポートに同様の方法で ChatGPT を使用し始めています。 (私たちは、彼らのモデルが高度に厳選されたデータセットに基づいてトレーニングされていることを認識しています。) これは、システムが受信メールを既知の不審なコンテンツのコレクションと照合してチェックする、より単純な「間違い探し」のような手法と比較すると、それほど多くの内容を提供しているようには見えないかもしれませんが、 —ChatGPT は、特定のユースケースにおいて貴重な洞察を提供できる可能性があります。たとえば、フィッシングメールの分析に関する洞察を提供できます。このシナリオでは、ChatGPT は受信メールの内容をリアルタイムで分析し、メッセージの背後にあるコンテキストを評価することでフィッシングの試みを特定できます。

「わからないことは教えてください。」

アナリストは、顧客が自分の知識の限界を理解できるように、自分が何を知らないのかを明確にする必要があります。それでも、アナリストは知識のギャップを埋めるための追加情報を求めることができ、ChatGPT のようなシステムが役立つ可能性があります。ただし、モデルがもっともらしいが不正確な回答を提供することで知識ベースの「空白を埋める」ことを試み、その結果、欺瞞的な回答が返される場合には、十分に文書化された問題がいくつかあります。これは、現代の LLM を諜報活動に統合する際の最大のリスクです。

ChatGPT は、トレーニングデータの範囲を超えたリクエストに直面したときに、理解力の限界を頻繁に認識していることがわかりました。その回答では、対処できなかったトピックを特定するのに役立つ有益な回答が提供されました。私たちは、モデルの限界を正直に認めることをさらに促進するために、ChatGPT の知識ベースの範囲外にある結果を改良するために迅速なエンジニアリングを採用できることに気づきました。私たちは、迅速なエンジニアリングが安全対策を完全に回避するのに役立つ可能性があることを発見しました。このことを念頭に置いて、この記事の執筆時点では、誤った情報が内在するリスクがあるため、アナリストは ChatGPT を自動化されたナレッジベースとして使用すべきではありません。

制限は別として、ChatGPT はプロジェクトの初期段階でブレーンストーミングに役立ちます。これは、外国諜報報告書や過激派マニフェストなど、さまざまな視点を網羅する多様なデータセットを微調整し、慎重かつ迅速なエンジニアリング手法を通じて実現できます。

ChatGPT がアナリストがわからないことを考えるのにどのように役立つかを説明するために、「AI レッドチーム」の仮説的な使用法について議論したインテリジェンスの専門家エイミーゼガートとのインタビューに触発されて、初歩的なレッドチーム演習を実施しました。

私たちは ChatGPT を使用して、米国の国内暴力過激派であるアーロントンプソンの敵対的なプロフィールを取り上げました。さまざまな状況において、AI はアーロンの認知パターンと戦術をどのように調整するかをシミュレートします。たとえば、私たちは ChatGPT に、アーロン・トンプソンの視点から、テロ計画実行中に当局に追い詰められた場合にどのように対応するかを尋ねました。プロンプトでは、アーロンが公共のイベントに参加していて警察に囲まれていると考えるようにモデルに指示します。 ChatGPT は、トンプソンが評価、適応、即興でコミュニケーションを行うのを確認する浅い応答を生成します。

ただし、モデルからより洗練された応答を引き出すために、チャット GPT に、より具体的な状況を考慮するよう促しました。改良されたプロンプトでは、警察官が近く (10 フィート離れたところ) にいて、犬がいると考慮するようにモデルに依頼しました。出力では、犬の目的（幼稚園から9年生または普通のペットの犬として）または逃げるための行動（「群衆に溶け込む」）に応じて、トンプソンがどのように反応するかを考慮しています。

この成果やその他の成果はあまり具体的ではありません。アーロン・トンプソンは、国内の暴力的過激主義に関する主題の専門家が作成するような、LLM によって豊富に書かれたものではありませんが、それでもアナリストの思考を刺激するのに役立ちます。研究者は、ChatGPT の出力を対象分野の専門家と比較する調査を実施する必要があります。このアプローチは、テロリストの意思決定をシミュレートする際に軍事経験のある者とない者がどのように異なるかを調査したロミン氏とケベル氏の2014年の研究に似ている可能性がある。このような研究プロジェクトやその他の研究プロジェクトを使用して、レッドチームの LLM パフォーマンスをさらに向上させることができます。

「……あなたの考えを教えてください。」

知能分析の作業における洞察力のある評価の極めて重要な役割は、判断を下すことにあります。こうした判断を下すということは、すぐにわかっていることを超えて、情報に基づいた推論を引き出すことを意味します。元CIA長官マイケル・ヘイデンがかつて皮肉ったように、「もしそれが事実であれば、それは情報ではない」。

現代の LLM は、アナリストの推論と判断に対する基本的な批評を提供することで、アナリストが推論を導き出すのを支援することができます。たとえば、個人の「赤血球」の役割を果たすことができます。私たちは、米国諜報機関の年次脅威評価の 2023 年版のイランに関するセクションで悪魔の代弁者として機能するよう任務を与えました。私たちはChatGPTに対し、反対の視点を提供し、分析基準に関するICD 203や調達要件に関するICD 206など、インテリジェンスコミュニティ指令（ICD）に定められたベストプラクティスに照らして報告書を検証するよう促しました。私たちのプロンプトには、潜在的な情報ギャップに対する批評の要求、読者の質問の予想、各批評の重要性の重み付けも含まれていました。 ChatGPTは、イラン評価のサイバーセクションへの返答の中で、その曖昧さを強調し、判決を裏付ける詳細を含めることを提案した。

出力には、提案、質問、および「インテリジェンスレンズ」が含まれます。後者は、コンテンツがレポートの前提条件によってサポートされているかどうかに焦点を当てます。 1つの質問は、イランのサイバー能力を北朝鮮などの他のならず者国家のサイバー能力とどのように比較するかを筆者に尋ねる。このモデルはまた、「イランが核兵器を開発することを選択し、JCPOAが更新されない場合、イランが核兵器を開発する可能性のあるスケジュールを明確にする」ことも提案している。批評を深めるために、私たちは ChatGPT にテキストから抽出した例を使用して各批評の根拠を生成するよう促しました。例えば、イランの核兵器取得のスケジュールを含めるという提案に関して、モデルの成果物は「問題の緊急性と重要性」を明確にすることの重要性を強調した。

これらの出力は、インテリジェンス製品の長所と短所を評価することで、アナリストのプロジェクトに役立ちます。 ChatGPT-4 の後継者がこの機能を改良し、承認するのではないかと考えています。 IARPA の REASON プロジェクトは、AI システムを使用したアナリストの推論を支援することを目的とした研究プロジェクトであり、これを行うための現代的な取り組みの 1 つです。

労働力開発と将来の AI モデルへの影響

ジャーナリズムや法律などの他の情報中心の職業と同様に、インテリジェンス専門家は、AI が自分たちの仕事のやり方を破壊し、変える可能性があることを認識しています。 4 年前、インテリジェンスコミュニティは AI を実装するための独自の戦略を策定しました。驚くべきことは、このテクノロジーの進歩の速さです。Open AI はすでに GPT-4 を強化する計画を立てており、他のベンダーも以前は制限されていたツールをリリースしています。上で説明したようにアナリストを支援するテクノロジーの機能と、今後のテクノロジーの改良は、いくつかの示唆を示唆しています。

まず、アナリストは AI との連携をより快適にする必要があります。具体的には、アナリストは、データポイズニングや誤った情報に基づくモデル出力の歪みなど、この記事で説明したデータバイアスの一部に焦点を当てて、大規模な言語モデルとアルゴリズムをしっかりと把握する必要があります。また、迅速なエンジニアリングスキルを磨く必要もあります。基本的なデータサイエンスリテラシースキルはすでに重要であり、今後 10 年間でさらに重要になるでしょう。幸いなことに、テクノロジーに詳しくないユーザー向けに、LLM を学習して実験する機会が十分にあります。流出したGoogleのメモの中で、ある従業員は、AIの実験が「主要な研究組織の総生産量から、1人、一晩、そして分厚いラップトップ1台にまで減少した」と指摘した。

第二に、分析マネージャーは、AI がアナリストの考え方にどのような影響を与えるかを認識する必要もあります。 2013年の先見の明に満ちた論文の中で、インテリジェンス学者のマイケル・ランドン・マレーは、社会のデジタル化がインテリジェンス分析者の思考方法を根本的に再配線し、その過程で彼らの注意持続時間を短縮していると指摘した。同様に、AI アシスタントの実装には、ソースで直接答えを調べるという従来のモードで情報を探すアナリストの意欲が低下するというマイナスの副作用が生じる可能性があります。

第三に、あらゆる種類のコンテンツの大部分が LLM によって生成され、トレーニングデータとして LLM にフィードバックされるため、システムが単に思考と分析のモードを強化するだけになるという本質的な危険性があります。これにより、分析スキルがさらに弱まり、敵が戦略的奇襲を達成する機会が生まれる危険があります。

最後に、特化した AI モデルをドメインごとに開発します。 AI モデルに供給されるトレーニングデータがより専門的であればあるほど、出力はより有用になります。確かに、インテリジェンスの特性は、法律の特性や、金融などの特定の領域で開発されているシステムとは異なる可能性があります。最近のモデルは、ダークウェブのデータを使用して構築されました。それにもかかわらず、トレーニングデータを特定のドメインに合わせて調整するという一般原則は、AI モデルのパフォーマンスを向上させるための貴重なアプローチであることに変わりはありません。 Palantir の AI プラットフォームは、防衛および軍事組織に影響を与えるこの好例です。

AI テクノロジーの急速な進歩により、専門家が追いつくのが難しいと思われる速度で新しいシステムが登場し、多くの業界で専門職が形成されています。インテリジェンスの分野では、機関が機密情報を含む厳選されたデータに基づいてトレーニングされた独自のモデルを使用して革新的なテクノロジーを開発していることは容易に想像できます。この状況の変化に伴い、ChatGPT はインテリジェンスコミュニティがインテリジェントに適応する必要があるテクノロジーの 1 つです。

ジェイソン・ヒーリーハーブ・リンダニエル・バイマン重陽ガオクリス・メセロール VS サブラマニアンショーン・オブライエンスコット・シャピロベンジャミン・ウィッテスユージニア・ロストリ