banner
ニュース センター
専門的な知識を身につけており、有能です。

SVSBI: シーケンス

Apr 03, 2023

Communications Biology volume 6、記事番号: 536 (2023) この記事を引用

501 アクセス

6 オルトメトリック

メトリクスの詳細

バーチャル スクリーニング (VS) は、生体分子の相互作用を理解する上で、特に創薬と創薬において重要な技術です。 ただし、現在の VS モデルの精度は分子ドッキングによって得られる 3 次元 (3D) 構造に大きく依存しており、精度が低いため信頼できないことがよくあります。 この問題に対処するために、高度な自然言語処理 (NLP) アルゴリズムと最適化されたディープ K 埋め込み戦略を利用して、3D 構造ベースに依存せずに生体分子相互作用をエンコードする別世代の VS モデルとして、シーケンスベースの仮想スクリーニング (SVS) を導入します。ドッキング。 我々は、タンパク質-リガンド結合、タンパク質-タンパク質、タンパク質-核酸結合、タンパク質-タンパク質相互作用のリガンド阻害を含む4つの回帰データセットと、タンパク質-タンパク質相互作用の5つの分類データセットについて、SVSが最先端のパフォーマンスを上回ることを実証します。 5つの生物種で。 SVS には、創薬とタンパク質工学における現在の実践を変革する可能性があります。

生体分子は生命の構成要素であり、そのサイズ、構造、物理化学的特性、生物学的機能に基づいて、炭水化物、脂質、核酸、タンパク質などのさまざまなカテゴリに分類できます。 さらに、生体分子の機能の実現には、多くの場合、他の生体分子、低分子リガンド、イオン、および/または補因子との直接的な物理的/化学的相互作用が伴います1。 これらの相互作用は、分子の柔軟性とアロステリーによる生体分子の構造変化だけでなく、分子の三次元 (3D) 構造とダイナミクスに大きく依存します。 生体分子の相互作用を理解することは、生物学の聖杯です。

過去 10 年間、人工知能 (AI) の達成とコンピューター能力の向上によって、計算生物学が急速に進歩しました。 データの収集、処理、分析、表現における高度な技術を使用して、現代の計算生物学では、並外れたスケールと多次元で生物学的プロセスを研究できます。 これは、さまざまな生物学的タスクで大きな成功を収めています2、3、4。 高度な AI アプローチを通じて生体分子の相互作用を理解する能力は、創薬 3、ウイルス予防 5、指向性進化 4 などの幅広い研究分野にとって広範な重要性を持っています。しかし、生体分子相互作用の正確かつ信頼性の高い予測は依然として厳しいものです。チャレンジ。

構造情報と分子機能の間には本質的に高い相関関係があるため、構造ベースのアプローチは生体分子相互作用のモデリングと学習において高い精度と信頼性を達成しました6、7、8、9、10、11。 その結果、現在の生体分子相互作用の解析と予測は、相互作用する生体分子複合体の高品質な 3D 構造に大きく依存しています。 残念なことに、3D 構造の実験による決定には時間と費用がかかり、実験的な構造、特に相互作用する生体分子複合体の構造が不足しています。 この困難を克服するために、検索およびスコアリングアルゴリズムに基づく分子ドッキングは、抗体-抗原複合体やタンパク質-リガンド複合体などの相互作用複合体の3D構造を生成するように設計されています。 分子ドッキングは、生体分子相互作用の仮想スクリーニング (VS) に広く組み込まれており、相互作用する生体分子複合体の 3D 構造を構築する代替手段を提供し、コンピューター支援創薬 (CADD) における重要なステップです。 しかし、現在の分子ドッキングは間違いを起こしやすく、不正確な 3D 構造をレンダリングし、信頼性の低い仮想スクリーニングにつながります 12。 Alphafold22 による(非相互作用的な単一)タンパク質のフォールディング予測における画期的な進歩にも関わらず、相互作用的な生体分子複合体の構造予測は依然として厳しい課題です。 生体分子相互作用の仮想スクリーニングのための革新的な戦略を開発することが急務となっています。

あるいは、配列ベースのアプローチは、3D 構造ドッキングを使用せずに、効率的で堅牢かつ簡単にアクセスできる生体分子相互作用の深い埋め込みを提供する可能性があります。 配列ベースのアプローチは、構造ベースのアプローチよりもはるかに広く適用可能です。これは、タンパク質データバンク (PDB) の 3D タンパク質構造がわずか 200,000 個しかないのに対し、ジーンバンクには 2 億 4,000,000 個を超える配列があり、配列ベースのアプローチに幅広い適用性が与えられているためです。 配列ベースのアプローチには主に 3 つのタイプがあります。(1) アミノ酸組成 (AAC)13、核酸組成 (NAC)14、および擬似 AAC (PseAAC)15 などの組成ベースの方法。 (2) 自己共分散などの自己相関ベースの手法16。 (3) 位置固有周波数行列 (PSFM) や位置固有スコア行列 (PSSM) などの進化ベースの方法。 一方、タンパク質モデルを含む分子配列に隠された情報を分析するための NLP モデルの使用は、ここ数十年で成功を収めています 17,18,19。

構成ベースの方法では、単一の残基または部分文字列の分布に基づいて埋め込みを構築します。 自己相関ベースの方法は、疎水性、親水性、側鎖の質量、極性、溶媒がアクセス可能な表面積など、各残基の物理化学的特性の統計的測定に基づいています。進化ベースの方法は、評価することによって大規模なデータベースから進化情報を抽出します。各残基の出現、または別のタイプに変異しているその残基のスコア。 これらの方法は、数十億年の自然進化によって選択された多数の分子配列を効率的に使用するため、通常、組成ベースの方法や自己相関ベースの方法よりも優れた性能を発揮します。 自然言語処理 (NLP) ベースの方法は、分子を埋め込むために広く使用されています。 その中でも、オートエンコーダー (AE)、長短期記憶 (LSTM)、およびトランスフォーマーが最も人気があります。 UniRep が提供する LSTM モデルは、配列ベースの合理的なタンパク質工学を可能にします20。 社内のオートエンコーダーは 1 億 400 万のシーケンスでトレーニングされました21。 進化スケール モデリング (ESM) は、2 億 5,000 万のタンパク質配列でトレーニングされた大規模な Transformer であり、構造予測を含む多くのタスクで最先端のパフォーマンスを達成しました 22。 ゲノム内の DNA については、事前トレーニングされた双方向エンコーダー表現モデル DNABERT が、プロモーター、スプライス、転写因子結合部位の予測などの非コーディング DNA タスクで成功を収めています 23。 さらに、社内の低分子 Transformer は 7 億を超える配列データでトレーニングされました 24。 ただし、これらの方法はいずれも生体分子相互作用を目的として設計されたものではありません。

この研究では、3D 構造を利用せずに構造レベルの精度でさまざまな生物学的相互作用を予測できる、生体分子相互作用の配列ベースの視覚的スクリーニング (SVS) を提案しました。 SVS の生物学的言語処理モジュールは、複数の NLP モデルで構成され、さまざまな生体分子から進化情報とコンテキスト情報を同時に抽出して、タンパク質、核酸、低分子などの相互作用する分子の配列表現を再構築します。 SVS は、生体分子の特性と相互作用に関するさまざまなタイプのタスクに対する強力な一般化可能性を備えています。 特に、SVS は、無視できる計算コストで複数の (生体) 分子間の相互作用を研究するための最適な K 埋め込み戦略を提供します。 分子内パターンと分子間メカニズムは、高価で時間のかかる 3D 構造ベースのドッキングを実行することなく、SVS によって効率的に捕捉できます。 我々は、4 つの結合親和性スコアリング関数 (タンパク質-リガンド、タンパク質-タンパク質、タンパク質-核酸、タンパク質-タンパク質相互作用のリガンド阻害) と 5 つの分類データセットを含む 9 つの予測タスクにおける SVS の最先端のパフォーマンスを示しました。タンパク質間相互作用 (PPI)。 広範な検証により、SVS は生体分子相互作用の仮想スクリーニングのための一般的、正確、堅牢かつ効率的な方法であることが示されています。

当社の SVS は、生体分子相互作用の深層学習予測を提供するシーケンスベースのフレームワークです (図 1)。 まず、生体分子相互作用モジュールは、相互作用する生体分子パートナーの種類を特定し、対応するフローで問題を処理します。 次に、関連する配列が収集され、生体分子配列モジュールにキュレーションされます。 さらに、生体分子言語処理モジュールは、配列データから個々の対話型分子の NLP 埋め込みを生成します。 さらに、K エンベディング モジュールは、個々の NLP エンベディングからインタラクティブな K エンベディングをさらにエンジニアリングして、インタラクティブな情報を推測します。 最後に、下流の機械学習アルゴリズム モジュールは、さまざまな生体分子相互作用の最先端の回帰および分類予測を提供します。

SVS は、タンパク質、DNA、RNA、リガンド、およびそれらの任意の組み合わせを含む、さまざまな生体分子相互作用用に設計されています。 b 分子配列は、生体分子相互作用複合体に関与するタンパク質、核酸、および小分子リガンドから抽出されます。 c 生体分子言語処理モジュールは、配列情報から生体分子複合体の NLP 埋め込みを表示します。 d K 埋め込みモジュールは、低次の埋め込みから生体分子相互作用の最適な表現を生成します。 パネル内の各四角形は、1 種類の 3 埋め込み戦略を表します。 異なるパターンは、異なる 1 埋め込み (つまり、NLP 埋め込み) または低次の埋め込みを表します。 異なる色は異なる積分関数を表し、K 埋め込みがどのように構築されるかを示します。 e 教師あり機械学習アルゴリズムは、生体分子相互作用の最適な K 埋め込みモデルから学習します。 原則として、アルゴリズムの選択に制限はありません。 具体的には、本作ではGBDTとANNを使用します。 f 機械学習アルゴリズムは、膜タンパク質分類、治療用ペプチドの同定、タンパク質間相互作用の同定、タンパク質間、タンパク質間、タンパク質間、リガンド間、タンパク質間相互作用の結合親和性予測、タンパク質阻害などのさまざまな分類および回帰タスクに適用されます。 –タンパク質の相互作用。

生物学的言語処理モジュールでは、タンパク質、核酸、小分子の配列データを使用して、NLP 埋め込みが生成されます (図 1b)。 我々は、タンパク質 LSTM モデル (UniRep)20、タンパク質トランスフォーマー (ESM)22、DNA トランスフォーマー (DNABERT)23、低分子トランスフォーマー 24、低分子オートエンコーダー 21 など、さまざまなタイプの NLP モデルを採用しています。 私たちは、アテンション メカニズムを介してシーケンスの依存関係を考慮した最先端のパフォーマンスを備えた Transformer モデルに特に焦点を当てています 25、26、27。 進化情報、3D 構造、生化学的特性 22,24 などの豊富な情報は、トランスフォーマーによって推測できます。

K 埋め込みモジュール(K 埋め込み戦略)は、相互作用する分子コンポーネントから複数の埋め込みを入力として受け取り、それらを最適な深い K 埋め込みモデルに統合して、生体分子の特性と分子間相互作用を解読します(図 1d)。 従来の 3D 構造ベースの仮想スクリーニング モデルでは、相互作用複合体の 3D 分子構造を生成するために分子ドッキング手順が必要ですが、これは非効率で信頼性が低くなります 28。 構造ベースのドッキング法の精度と有効性は、分子構造の決定 1、剛体および柔軟なドッキング空間の検索 1、スコアリング関数の構築 29 を含む複数のサブプロセスによって共同で決定されます。 現在の研究は、これらのサブプロセスのそれぞれで成功を収めています。 ただし、これらのサブプロセスの軽微なエラーが蓄積し、信頼性の低い構造ベースのドッキングが発生する可能性があります。 あるいは、当社の SVS フレームワークでは、K 埋め込み戦略により、インタラクティブな分子埋め込みの分布情報を最適な K 埋め込みに変換し、生体分子相互作用の本質的な特性を抽出できます。これにより、隠れた非線形分子相互作用情報を学習する際の機械学習アルゴリズムのモデル化可能性が向上します。 。

機械学習モジュールは、分子特性予測のために K-embedding モジュールから K-embedding 戦略を取得します。 下流の機械学習アルゴリズムには、予測タスク用の人工ニューラル ネットワーク (ANN) と勾配ブースト デシジョン ツリー (GBDT) が含まれています。 両方のモデルのハイパーパラメータは、さまざまなサイズのデータ​​セットとディープ K 埋め込み、およびさまざまなタスク (ANN ハイパーパラメータ調整のための機械学習アルゴリズムとベイジアン最適化) に対応するために、ベイジアン最適化またはグリッド検索によって体系的に最適化されます。 各タスクについて、分類の精度または回帰のピアソン相関係数で最良の予測スコアを達成する上記の最適化ハイパーパラメーターを使用して、最適な K 埋め込み戦略が選択されます。

定量的には、分子相互作用の強さとして定義される結合親和性は、解離定数 (Kd)、阻害剤定数 (Ki)、最大阻害濃度の半分 (IC50)、または対応するギブズ自由エネルギーの物理化学用語に反映されます。 分子結合親和性の正確な予測は、生物学的システムのモデリングにおける重要なステップであるだけでなく、創薬 8、10、31、分子工学、および突然変異誘発分析 4 を含むいくつかの実際の用途にとっての基本的な問題でもあります。

タンパク質とリガンドの結合複合体のスコアリングは、創薬における仮想スクリーニングの最終目標です。 通常、特定の薬物標的について数百万の薬物候補がスクリーニングされます。 仮想スクリーニングの精度と効率は創薬にとって不可欠です8,32。 現在、不正確な 3D 構造ベースのドッキングと、それに関連する信頼性の低い仮想スクリーニングが、合理的な医薬品の設計と発見における主な障害となっています。

この研究では、SVS を適用して PDBbind 2016 データセット 33 上のタンパク質 - リガンド結合親和性を予測しました。このデータセットは、何百もの研究チームがタンパク質 - リガンド結合スコアリング機能を検証するために使用している人気のあるベンチマーク データセットです 7、8、9、33、33、34 、35、36、37、38。 これには、PDBbind 2016 の洗練されたセットからの 3772 個のタンパク質 - リガンド複合体のトレーニング データと、コア セットからの 285 個の複合体のテスト データが含まれています。 PDBbind データベースで 3D 複雑な構造を利用できるため、TopBP10、PerSpect-ML31、AA-score32 などの代数トポロジー ベースの機械学習モデルなどの構造ベースのスコアリング関数が有利になります。

2D フィンガープリントベースの手法の最高のパフォーマンスは、タンパク質-リガンド拡張接続 (PLEC) フィンガープリントによって達成され、Rp = 0.817 でした35。 実際、PLEC では 3D 構造情報が利用されており、既存のタンパク質-リガンド結合スコアリング機能における 3D 構造の重要性が強調されています。 このデータセットを選択して、提案された SVS が構造情報に頼らずに、構造ベースのスコアリング関数と同じレベルの精度に達できるかどうかを調べます。

図2bに示すように、私たちのSVSモデルは、Rp = 0.832およびRMSE 1.696 kcal mol−1で結合親和性を正確に予測します(図2b)。 構造ベースの方法では、タンパク質-リガンド複合体の実験構造を使用すると通常 Rp > 0.7 を達成できますが、ASP@ GOLD や Autodock などの分子ドッキングを使用して構造を生成すると、より低い Rp < 0.65 が達成されます。タンパク質-リガンド複合体33. 代数トポロジーを使用して 3D タンパク質-リガンド複合体の構造の複雑さを単純化する構造ベースの TopBP 法は、文献で Rp/RMSE 0.861/1.65 kcal mol-110 という最高のパフォーマンスを達成しました。 高度な数学主導の構造ベースの方法を除いて、SVS は他の構造ベースの方法、たとえば AK-score7 (Rp: 0.827)、NNScore+RDKit38 (Rp: 0.826) よりも優れています (図 2b)。 今回の成果は、現在のバーチャルスクリーニングの品質と信頼性を、3次元実験構造に依存することなくX線結晶構造ベースのアプローチのレベルまで劇的に向上させることができるという非常に重要な成果である。 私たちの結果は、薬物とタンパク質の複合体の 3D 構造に依存することなく、あらゆる薬物標的に対して信頼性の高い仮想スクリーニングを実行できるという広範な意味を持っています。

a スケーリングされた予測結合親和性と、タンパク質-リガンド (PL)、タンパク質-核酸 (PN)、タンパク質-タンパク質 (PP)、および PPI の阻害 (iPPI) データセットの結合親和性予測の実験結果の比較。 各データセットは、明確に視覚化できるよう、同じ範囲の特定の領域にスケールされます。 b PDBbind-2016 コアセットのタンパク質 - リガンド結合親和性予測のための SVS モデルのピアソン相関係数 (Rp) と他の構造ベースのアプローチのピアソン相関係数 (Rp) の比較。 赤、青、緑の結果は、それぞれ構造なし (つまり配列)、実験的構造、およびタンパク質-リガンド複合体のドッキング生成構造を使用して得られます。 当社の SVS は、AK-score7、NNScore+RDKit38、その他多くのモデル 9、33、34、35、36、37 などの最先端のモデルよりも優れています。 c タンパク質-リガンド結合予測のピアソン相関係数 Rp に関するさまざまな NLP モデルの比較。 d c に示すさまざまな NLP モデルの相対重要度分布。 各行は 512+1280/1900 の色付きの垂直線で構成され、それぞれが NLP モデルによって生成される 1 つの特徴の重要性を表します。 黒い破線は、異なる種類の分子に属する特徴の分割線です。 黒い破線の左側または右側のパーセンテージは、同じ種類の分子の特徴の重要性の合計の割合です。

タンパク質とリガンドの埋め込みのさまざまな組み合わせによるパフォーマンスをさらに調査します (図 2c)。 タンパク質の埋め込みには ESM Transformer22 および UniRep LSTM20 モデルを、リガンドの埋め込みには Transformer24 および autoencoder21 モデルを使用しました。 私たちの分析は、低分子トランスフォーマーがオートエンコーダーよりも優れていることを示しています。 さらに、Transformer はタンパク質の埋め込みに関して LSTM モデルよりも優れたパフォーマンスを実現します。 GBDT からの特徴重要度分析からさらなる特徴分析が提供されます (図 2d)。 両方の低分子埋め込みの次元は 512 です。タンパク質埋め込みの場合、Transformer の次元は 1280、LSTM の次元は 1900 です。まず、小さな分子の特徴には、より重要な特徴があります。 小さな分子の特徴の平均重要度は、4 つのケースで上から下まで 0.082 (41.9/512)、0.074、0.082、および 0.088 です (図 2d)。 対照的に、タンパク質の特徴の平均重要度は、4 つのケースで 0.045、0.049、0.031、0.028 でした。 さらに、低分子トランスフォーマーは、オートエンコーダーよりも重要な機能を提供します。 タンパク質の埋め込みに関しては、Transformer には LSTM よりも重要な機能があります。 したがって、リガンドトランスフォーマーとタンパク質ESMトランスフォーマーの組み合わせは、図2cに示すように最良の予測を達成します。

タンパク質間結合親和性とは、抗体 - 抗原複合体などの 2 つのタンパク質が相互に結合する場合の、それらのタンパク質間の引力的相互作用の強さを指します。 これは、多くの生物学的プロセスにとって不可欠なタンパク質間相互作用 (PPI) の安定性と特異性を評価するための重要な指標です。

タンパク質間の結合親和性を理解することは、創薬、抗体設計、タンパク質工学、分子生物学などの多くの応用にとって重要です。 たとえば、抗体-抗原結合親和性が抗体の形状、抗体の電荷と水和、抗体上の特異的結合部位または残基の存在によってどのような影響を受けるかを知ることで、特異的結合特性を備えた抗体を操作して中和することができます。ウイルス39、40。

タンパク質間の結合親和性は、ギブスの自由エネルギーによって定量化できます。 表面プラズモン共鳴 (SPR)、等温滴定熱量測定 (ITC)、酵素結合免疫吸着測定法 (ELISA)、およびウェスタンブロッティングは、タンパク質間の結合親和性を決定するために使用されます。 私たちの研究では、タンパク質配列からタンパク質間の結合親和性を予測するための SVS モデルを構築します。 私たちは、PDBbind データベース 41 で 1795 個の PPI 複合体 (データセット) のセットを収集し、管理しています。 このデータセットは、SVS の多用途性を示すために使用されます。 これらの PPI 複合体のシーケンスは、Transformer を使用して抽出され、埋め込まれます。 私たちの研究では、PPI は Transformer 埋め込みのスタックによって表されます。 私たちのSVSモデルは、10分割相互検証によりRp 0.743およびRMSE 1.219 kcal mol−1に達しました。予測値とグランドトゥルースの比較を図2aに示します。 我々の結果は、SVS が PPI の結合親和性を予測するための強力なアプローチであることを示しています。

生体分子相互作用の別の種類はタンパク質と核酸の結合で、化学反応の触媒、分子の輸送、シグナル伝達、転写、翻訳など、細胞の構造と機能において重要な役割を果たします。 また、遺伝子発現の制御や染色体の構造と機能の維持にも関与しています。 タンパク質と核酸の結合の調節不全は、がん、遺伝性疾患、自己免疫疾患などのさまざまな疾患や障害を引き起こす可能性があります。 タンパク質と核酸の結合親和性に影響を与える水素結合、双極子、静電気、ファンデルワールス相互作用、疎水性などの要因を理解することは、新しい治療用分子を設計するために利用できます。

この研究では、SVS を適用してタンパク質と核酸の結合親和性を分析および予測します。 既存のベンチマーク データセットが不足しているため、PDBbind データベース 41 からデータセットを抽出します。 合計 186 個のタンパク質-核酸複合体が収集されました (データセット)。 このデータセットは、SVS が核酸に関与する生体分子相互作用の予測にうまく機能することを実証するために選択されました。 この問題に対して、当社の SVS はタンパク質配列の埋め込みにトランスフォーマー (ESM) を利用し、核酸配列の埋め込みに別のトランスフォーマー (DNABERT) を利用します。 私たちのモデルは、10 分割相互検証で平均 Rp/RMSE 0.669/1.45 kcal mol−1 という良好なパフォーマンスを示しています。 結果を図 2a に示します。 データセットが非常に小さいという事実を考慮すると、SVS 予測は非常に優れています。

タンパク質とリガンド、タンパク質とタンパク質、タンパク質と核酸の結合予測に対する SVS を実証したので、複数の分子成分が関与する問題をさらに検討します。 タンパク質間相互作用予測の小分子阻害 (iPPI) には、少なくとも 3 つの分子が関与します。

タンパク質間の相互作用は生物にとって不可欠です。 PPI の機能不全は、免疫不全、自己免疫疾患、アレルギー、薬物中毒、がんなどのさまざまな病気を引き起こす可能性があります42。 したがって、PPI (iPPI) の阻害は、医薬品の設計と発見において大きな関心を集めています。 最近の研究では、リガンドを含む iPPI の生物医学的な潜在的可能性が実証されています 43。

ただし、リガンドを使用した iPPI は、ターゲットの検証、リガンドのスクリーニング、リードの最適化など、幅広い研究段階で困難を伴います 44。 iPPI 予測の従来の計算方法にはさまざまな制限があります。 たとえば、構造ベースのアプローチでは、安定で信頼性の高い実験的な複雑な構造であっても、PPI の大きくて動的な界面によって引き起こされるリガンドドッキングの複雑さを克服する必要があります 45。 最近、Rodrigues ら 42 は、リガンドベースの仮想スクリーニングの枠組みでリガンド構造のグラフベースの表現を利用する、pdCSM-PPI と呼ばれる相互作用特異的モデルを開発しました。 彼らのアプローチの重要な特徴は、モデルがリガンドベースでターゲットに特化していることです。各モデルの入力は、1 つの特定の PPI をターゲットとするリガンドのセットです。 iPPI の隠されたメカニズムを探求する代わりに、彼らのモデルは、類似の構造を持つリガンドが類似の挙動、つまり類似の特性原理を示すと仮定することによるリガンドの比較に依存しています。 彼らのアプローチは、同じ PPI システムをターゲットとするリガンドに対して 1 つの機械学習モデルが構築される、ターゲット固有の予測を使用することで、iPPI 構造と分子機構が欠如しているという問題を回避しています。 したがって、新たなターゲットのスクリーニングには使用できません。 対照的に、SVS は PPI ターゲットのシーケンス埋め込みによってこの困難を回避できます。 その結果、SVS を直接適用して、既存の iPPI データセット内のターゲットと一致することなく、新しい PPI の阻害を調査することができます。

この研究では、PPI のリガンド阻害の最大半分の阻害剤濃度 (IC50) を予測するために、さまざまな K 埋め込み戦略を使用して PPI とリガンドを分析しました。 各 iPPI 複合体について、低分子トランスフォーマーとタンパク質トランスフォーマーを使用して、1 つのリガンド配列と 2 つのタンパク質配列を SVS に埋め込みます。 私たちは、Rodrigues et al.42 によって検討されたデータセットでモデルをテストしました。 私たちのモデルは、10 分割交差検証で Rp 0.766 および RMSE 0.761 mol/L を示しますが、以前の pdCSM-PPI モデルの Rp および RMSE はそれぞれ 0.74 および 0.95 mol/L です。 SVS は Rp と RMSE の両方で優れたパフォーマンスを示し、SVS 法の優位性を示しています。 予測結果とモデルのグラウンドトゥルース値の比較を図 2a に示します。

さまざまな NLP の深い埋め込みを介して K 埋め込み戦略を探索します。 この研究では、低次の埋め込みから構築された高次の埋め込みによる K 埋め込み戦略を生成するために、Stack、Prod、Diff という 3 つの統合関数を調べます。 スタックは、PPI 複合体の 2 つのタンパク質からの 2 つの生体分子言語処理埋め込みを 1 つの埋め込みベクトルに連結します。 この方法では、生体分子言語処理モジュールによって提供される完全な情報が保存されますが、次元が高いという欠点があります。 PPI 複合体内の 2 つのタンパク質は同じ長さの 2 つのベクターによってコードされているため、これら 2 つのベクター間のコンポーネントごとの操作を介して 2 埋め込みを行うことができます。 また、コンポーネントごとの積 (Prod) と差の絶対値 (Diff) もテストしました。 これらのコンポーネントごとの 2 埋め込みアプローチにより、下流の機械学習モジュールに対して低次元の 2 埋め込みが行われます。 これら 3 つの戦略に対応する具体的な式は、方程式と式で説明されています。 それぞれ (2)、(3)、(4) です。

ここでは、NLPモデルの均一性または不均一性を十分に考慮した14種類の高次の深い埋め込みを選択し、その予測パフォーマンスを図3aに示します。 この iPPI データセットは、同じ PPI をターゲットとする複数のリガンドで構成されるリガンド中心のデータセットであることは注目に値します。 したがって、リガンド配列情報処理のための 1-embedding が最も重要な役割を果たすことになります。 私たちの実験では、スタック スキームで Transformer ベースのモデルを使用すると、最先端のパフォーマンスが得られることがわかりました。

a さまざまな K 埋め込み戦略のパフォーマンス (Rp) の図。 b 最適な K 埋め込み戦略 (つまり、3 つのトランスフォーマーのスタック) を使用した iPPI 予測におけるリガンド、タンパク質 1、およびタンパク質 2 の特徴重要度分析。 c 最適な K 埋め込み戦略 (すなわち、3 つのトランスフォーマーのスタック) を使用した iPPI の SVS の上位特徴におけるリガンド特徴の割合。 x 軸は考慮される上位の特徴の量を示し、y 軸は上位の特徴におけるリガンドの特徴の割合を表します。

さらに、リガンドとタンパク質をコードする特徴について GBDT からの最良のスキームの特徴の重要性を分析します。 興味深いことに、リガンドの特徴はタンパク質の特徴よりも実質的に重要です (図 3b)。 具体的には、リガンドの特徴の重要性は 84.2% とはるかに高いのに対し、2 つのタンパク質の重要性の合計は 15.8% にすぎません。 一方、上位の特徴には高い割合でリガンドの特徴が含まれており、たとえば、上位 512 の特徴の 96.4% はリガンドの特徴によるものです (図 3c)。 このような特徴の不均衡の考えられる理由は、1694 個のリガンドを含むこのデータセットに含まれる PPI システムがわずか 31 個だけであるためである可能性があります。 タンパク質の特徴はそれほど重要ではありませんが、ターゲットが一致しない iPPI を学習するには必要です。 図3aに示すように、PPI情報がない場合(PPIの非エンコーディング)、またはPPIの自明な分類情報のみがある場合(PPIのワンホットペアエンコーディング)、私たちのモデルは予測精度の大幅な低下を示しています。 唯一の例外は、PPI ターゲットの Diff です。 理由の 1 つは、この PPI ターゲット内の多くのタンパク質が同じタンパク質ファミリーに属していることです。 したがって、これらのタンパク質の配列における高い類似性は、Diff スキームに対して非常に限られた情報しか提供しません。 一般に、タンパク質の特徴は、ターゲットに一致しない iPPI を学習するために必要なコンポーネントです。

タンパク質間相互作用(PPI)は、シグナル伝達、免疫応答、細胞組織など、多くの生物学的プロセスを制御します46。 ただし、PPI の選択性と強度は種と細胞環境に依存します。 PPI を特定して研究することは、研究者がタンパク質機能の分子機構と、細胞や生物体内でタンパク質がどのように相互作用するかを理解するのに役立ちます。

我々は、PPI を特定するために SVS 法を利用しました。この手法では、我々のモデルは、文献 14,47 の標準的なトレーニングおよびテスト分割プロトコルに従って、特定のデータセット内のタンパク質ペアを分類しました。 陽性サンプルは、分子間力を介して直接物理的に接触している相互作用するタンパク質ペアとして定義され、一方、陰性サンプルは、異なる細胞内コンパートメント内のタンパク質ペアをランダムに選択することによって生成されました 14,47。 ホモ・サピエンス (HS)、ハツカネズミ (MM)、出芽酵母 (SC)、キイロショウジョウバエ (DM)、ヘリコバクター・ピロリ (HP) を含む、異なる種の 5 つの PPI データセットがベンチマークに使用されます。 ここでは、Stack、Prod、Diff という 3 つの K 埋め込み戦略を検討します。

回帰モデルのパフォーマンスは複雑であるため、最初に下流の回帰モデルを使用せずにインタラクティブ機能のパフォーマンスを分析します。 特に、特徴残基スコア (R) 対類似性スコア (S) を視覚化するために RS プロットを採用しました 48。 特定のサンプルの R スコアと S スコアは、その特徴とクラス間サンプルおよびクラス内サンプルの距離を考慮することによって計算されます。式は次のように表されます。 それぞれ (10) と (11)。 R スコアと S スコアの範囲は両方とも 0 から 1 です。R スコアが高いサンプルは、他のクラスのサンプルから遠く離れていることを示し、S スコアが高いことは、同じクラスの他のサンプルに近いことを示します。クラス。 R スコアと S スコアの間には明確なトレードオフが存在するにもかかわらず、効果的な特徴量化方法は、高い R スコアと S スコアの両方を持つことが期待されます (図 4b)。 特に、このようなトレードオフは、RS インデックス (式 (14)) によって定量化することもできます。 RS 分析では、スタック フィーチャは、H. pylori データセット (同様の領域に位置) を除き、Prod および Diff 埋め込みの右上に位置していますが、すべてのデータセットにわたって広範囲に重複していることが示されています。 さらに、RS インデックスの観点から見ると、Stack と Diff は 2 つのデータセットで利点があり、Prod は 1 つのデータセットで利点があります。

a–e 当社の予測モデル (SVS) と以前のいくつかの PPI 識別モデルとの比較。 各データセットの比較は、データセットの名前が先頭にあるサブプロットに個別に表示されます。 各サブプロットの X 軸は、0.75 から 1 の範囲の精度スコアを表します。 Y 軸には各モデルの名前がリストされます。 当社の SVS は、SVM-NVDT14、RF-NVDT14、PCVMZM58、TAGPPI47 などの最先端のモデルを上回ります。 f 特徴の RS 分析によって測定された、さまざまな K 埋め込み戦略の比較。 比較のために、Prod、Diff、Stack という 3 つの K 埋め込み戦略が選択されています。 このプロットは、5 つの同様のセクションで垂直に構成されています。 各セクションは、左側に名前が付いたデータセットを表します。 さらに、各セクションには 2 つの部分があります。 左側の部分には、さまざまな戦略によって生成されたポジティブまたはネガティブな特徴の RS プロットを示す 2 つのサブプロットがあります。 右側の部分には、さまざまな戦略の RS インデックス (RSI) が表示されます。 g 異なる K 埋め込み戦略の予測モデルの比較精度。

さらに、5重交差検証を使用して同一の回帰モデルと組み合わせることで、異なるK埋め込み戦略を比較しました(図4b)。 一貫して、スタック戦略は、テストされたすべてのデータセットの下流モデルのパフォーマンスにおいて、他の戦略よりも最高の精度スコアを示しました (図 4c)。 全体として、Stack は最適な K 埋め込み戦略を提供します。

全体として、生体分子言語処理埋め込みの最高のスタックを備えたモデルは、ヘリコバクター ピロリ、ハツカネズミ、出芽酵母、ヘリコバクター ピロリ、ショウジョウバエのデータセットに対して 99.93%、99.28%、99.64%、99.22%、98.69% という高い精度スコアを示しました。それぞれ、melanogaster(図4aおよび補足表1)。 比較すると、最先端の方法である SVM-NVDT14 では、これらのデータセットに対してそれぞれ 98.56%、94.83%、99.20%、95.41%、および 94.94% が得られます。 SVM-NVDT は、天然のベクターとジヌクレオチドおよびトリプレット ヌクレオチドの情報に基づいています。 また、補足注記 2 には、補足図 1 に示されている AUC 曲線を含む、SVS モデルの追加の結果が表示されます。当社のモデルは、以前のすべてのモデルを大幅に上回っており、以前の識別方法に対するこの方法の優位性を示しています。 PPI。

この研究では、従来の分子言語モデルからの表現を出発点として利用し、高次の K 埋め込みを帰納的に定義します。これは、任意の数の分子が関与する生物学的相互作用を表現するための系統的な戦略を提供します。 さまざまな K 埋め込みを生成することにより、単一分子に対して生成された NLP モデルの配列表現を効果的かつ簡単にキャプチャできます。 これらの K 埋め込みにより、相互作用する生体分子の潜在的な異質性を包括的に考慮することが可能になり、個々の分子の表現力が向上します。 さらに、K-embedding の設計により、SVS はダウンストリームのマシン/深層学習アルゴリズムを最適化できます。 K 埋め込みの有用性を実証するために、最先端の結果を達成する 2 つの機械学習アルゴリズムを設計しました。

生体分子の相互作用を予測する場合、構造ベースのアプローチが一般的であり、高品質の 3D 構造のトポロジー表現を使用すると精度が高くなります 10。 ただし、それらのパフォーマンスは、信頼できる高解像度の実験構造が利用できるかどうかに依存します。 構造ドッキングは、インタラクティブ複合体に利用可能な実験構造がない場合に、構造ベースのアプローチに必要なプロトコルです。 さらに、構造ベースの方法の力は、インタラクティブな複合体の幾何学的情報を正確に捕捉できる能力にあります。 したがって、ドッキング構造と実験的構造の間の差異は、構造ベースのモデルにも継承されます。 しかし、現在の分子ドッキングモデルがこの不一致を許容範囲内で制御できることを示した研究はありません。 対照的に、私たちの SVS メソッドは、配列データのみを使用して相互作用分子複合体を研究するための代替アプローチを提供します。 これは、潜在空間に構造情報、柔軟性、構造進化、多様性を暗黙的に埋め込み、K 埋め込み戦略を通じて下流モデル用に最適化されます。 図 2 に示すように、SVS は最適な構造ベースのアプローチと同じレベルの精度に達していることは注目に値します。

リガンドベースの仮想スクリーニングモデルは、リガンドと生体分子の相互作用を評価するための構造ベースのドッキングを回避できる別の効果的なアプローチとしても機能します49。 ただし、これらのモデルは原則としてターゲット固有のデータセットにのみ適用でき、新しいターゲットを含むスクリーニングには使用できないため、現在のリガンドベースのモデルの使用は非常に限定されています。 我々は、K 埋め込み戦略を介してターゲットとリガンドの深い埋め込みを組み合わせることで、SVS が構造ベースの精度で堅牢なターゲット非特異的予測を生み出すことを示しました。

生物学的言語処理モジュールと K 埋め込みモジュールは、SVS モデルの 2 つの主要なコンポーネントです。 従来、モデルのパフォーマンスは特徴化モジュールと機械学習アルゴリズムの両方に依存していました。 特徴化モジュールの品質のみを分析するために、分類タスクに RS プロットと RS インデックス 48 を使用して残基類似性 (RS) 分析を実行します (図 4b)。 RS 分析は、類似性スコアと残差スコア、および異なるクラス間の偏差の観点から特徴の品質を記述します。

大きさとモデル化可能性の観点から、さまざまなデータセット上の SVS の動作をさらに分析します (図 5a)。対応するデータセットの基本情報は補足表 3 にあります。モデリング可能性インデックス、予測、インデックスマグニチュードインデックスの 3 つの指標が使用されます。 モデラビリティ指数とマグニチュード指数は各データセットのトレーニング データに基づいて計算され、予測指数はテスト データの予測結果に基づいて計算されます。 モデルが相互検証によってテストされる場合、データセット全体が 5 つのインデックスごとに計算されることに注意してください。 予測インデックスはタスクの種類に基づいて選択されます。分類タスクには精度スコアを、回帰タスクには Rp を選択しました。 各データセットのトレーニング データに対するアプローチの実現可能性を表すモデラビリティ インデックスは、クラス加重比 (分類) またはサンプルの最近傍間のアクティビティ クリフ (回帰) を計算することによって評価されます (式 (15) ) および (16))。 以前の研究 50,51 では、モデル化可能なデータセットとモデル化不可能なデータセットを分けるしきい値は 0.65 であることが示唆されています。 私たちのモデルはすべてのデータセットでこのしきい値を超えています。 特に、モデラビリティ指数は 0.8 を超えており、SVS の堅牢性、安定性、実現可能性が確認されています。 私たちの方法は、調査された 9 つのデータセットの最大サイズ (最大データ サイズは 11,188) に比例して対応するデータセット サイズを反映するマグニチュード インデックスで示されるように、さまざまなデータセット サイズと互換性があります。 私たちの分析では、PN データセットを除いて、マグニチュード指数とモデラビリティ指数または予測指数との間に実質的な相関関係がないことが示されています。 このデータセットは、同じタスクの他のデータセット (つまり、PL、PP、iPPI データセット) と比較すると、同じレベルのモデリング指数を持ちますが、予測指数のレベルは低くなります。 これはマグニチュード インデックスが小さすぎるためであり、このデータセットは相互検証によってテストされているためであると考えられます。 したがって、ランダムに選択されたデータにより特徴空間に空白が生じ、モデルがこのデータセットに適合することが困難になります。 結論として、SVS は生体分子の予測に幅広く適用でき、データ サイズの変動に対して堅牢です。 さらに、SVS は異なる配列構成を持つ分子に対する高い適応性を持っています。 これまでの各数値実験にはタンパク質が含まれていたため、各データセット内のタンパク質配列の長さの分布(図5b)と、配列内のアミノ酸の出現率の分布(図5c)を示します。 平均すると、PL、PP、および PN の配列長は、出芽酵母 (SC)、キイロショウジョウバエ (DM)、ヘリコバクター ピロリ (HP)、ホモ サピエンス (HS)、およびハツカネズミ (MM) の配列長よりも短くなります。 これは、以前のデータセットのサンプルにも実験的に決定された構造が提供されているためです。 大きなサイズのタンパク質構造の利用可能性と信頼性は、実験的手法だけでなく実際的な考慮事項にも左右されるため、構造に基づくアプローチでは避けられない体系的な偏りが生じます。 一方、当社の SVS モデルは、さまざまなシーケンス長分布を含むタスクに対して優れたパフォーマンスを示します。 さらに、アミノ酸出現率分布の多様性は、関与する配列組成に何らかの特異性があるかどうかに関係なく、さまざまな生物学的タスクに取り組むためのモデルの適応性を裏付けています。 結論として、私たちの SVS モデルは配列長の変動に対して堅牢であり、生体分子の変動に適応します。これは、生物学的相互作用を研究するための普遍的なアプローチとしての私たちの SVS 法の可能性を明らかにしています。

9 つのデータセットのモデラビリティ指数、予測指数、マグニチュード指数。 左側の Y 軸はモデル化可能性と予測インデックスを表し、右側の Y 軸はマグニチュード インデックスを表します。 私たちの研究で使用された 9 つのデータセットは、4 つの結合親和性回帰タスク (つまり、PL、PP、PN、iPPI) と 5 つのタンパク質間相互作用分類タスク、すなわち SC (出芽酵母)、DM (ショウジョウバエ)、HP (ヘリコバクター ピロリ) です。 )、HS(ホモ・サピエンス)、MM(ハツカネズミ)。 b 9 つのデータセットのシーケンス長の分布。 c 正規化されたアミノ酸出現率分布。 この部分図には水平方向に 9 つのチャネルがあり、a、b で説明した 9 つのデータセットに対応します。 各チャンネルは、データセットの配列における 20 種類のアミノ酸の出現率の分布を示します。

SVS の成功は、LSTM、オートエンコーダー、特に数億の分子でトレーニングされたトランスフォーマーなどの強力な NLP モデルの使用によるものです。 これらのモデルは、分子特性ラベルに頼ることなく、分子および生体分子の構成規則を抽出します。 提案されている SVS は、より高度な NLP モデルが利用可能になるにつれて、さらに強力になります。

提案された SVS 手法を紹介するために、タンパク質 - リガンド結合、タンパク質 - タンパク質結合、核酸結合、およびタンパク質 - タンパク質相互作用のリガンド阻害に関する 4 つの回帰データセットと、タンパク質 - タンパク質相互作用に関する 5 つの分類データセットを含む 9 つの代表的な生体分子相互作用データセットを選択します。 5 つの生物種における相互作用。 SVS は、構造情報を必要とせずに、複数の標的および複数の分子成分の大規模な仮想スクリーニングに適用できます。

最近、機械学習モデルにおけるデータ漏洩の可能性についての懸念が高まっており、モデルが予測を行うためにシーケンスの類似性に過度に依存する可能性があります52。 この問題により、生体分子間の相互作用の根底にあるパターンを学習するモデルの能力が損なわれます。 ただし、私たちのアプローチである SVS は、NLP ベースの K 埋め込みを利用することでデータ漏洩を回避します。 構造、文脈、生化学、進化情報など、配列から幅広い隠された情報を抽出することにより、SVS モデルは配列の類似性への依存度が低くなります。 最近の研究では、分子相互作用を完全に変更または放棄する可能性があるタンパク質相互作用の単一または複数の変異を予測する際の NLP ベースの方法の有効性も実証されており 4,53、配列類似性に対する SVS の依存性が低いことをさらに裏付けています。

この研究では、タンパク質とリガンドの結合親和性を予測するために PDBbind-2016 データセット 41 を使用しました。 タンパク質間結合親和性で使用されるデータセットは、PDBbind データベースから構築されました 41。 オリジナルの PDBbind バージョン 2020 には、2852 個のタンパク質間複合体の結合親和性データが含まれています。 補足表5に示すように、2つの異なるサブチェーン配列のみを持つ1795個のサンプルを選択しました。さらに、PDBbindバージョン2020からタンパク質-核酸結合親和性データセットも構築しました。ただし、タンパク質やリガンドとは異なり、核酸は変換する必要があります使用した Transformer モデルにフィードする前に、k-mers (モデルでは k は 3 に等しい) に変換されます。 したがって、配列内の 1 つの型破りな文字 (例、X、Y) により、k 個の未知の k-mer が生成されます。 さらに、タンパク質に結合する核酸は一般に長さが短い。 したがって、その配列内のこのように型破りな文字は、k-mer 表現のコンテキストを完全に破壊する可能性があります。 たとえば、核酸配列「ACXTG」は、「ACX」、「CXT」、および「XTG」の 3 つの 3-mer に変換されます。 これら 3 つの 3-mer にはすべて「X」が含まれているため、生体分子言語処理モデルはこれらを未知のトークンとして扱い、有用な配列情報を読み取ることができないことに注意してください。 配列情報の有効性を保証するために、より厳格な除外基準を適用します。1) 配列番号が 2 に等しくないタンパク質-核酸複合体を除外します。 2) 不明瞭な標識を持つタンパク質-核酸複合体を除外します。 3) 核酸配列中に異常な文字 (正常なものは A、C、T、G) を持つタンパク質-核酸複合体を除外します。 4) 核酸配列の長さが 6 未満であるタンパク質 - 核酸複合体を除外します。結果として得られるデータセットには、補足表 4 に示すように 186 個のタンパク質 - 核酸複合体が含まれます。さらに、これら 2 つのデータセットについては、ラベルは解離定数から変換されます。 (Kd)、阻害剤定数 (Ki)、および補足式に基づくギブズ自由エネルギーに対する最大阻害濃度の半分 (IC50)。 8.

元のデータセット iPPI データセットはリガンドに焦点を当てているため、PPI ターゲットの利用可能性は不明瞭で、1694 個のリガンドが利用可能であるのに対し、ファミリー レベルでは 31 個のターゲットのみが提供されています。 各タンパク質ファミリーについて、ファミリー全体を表す 1 つのタンパク質を選択しました (例、BCL2/BAK には P10415/Q07812、ブロモドメイン/ヒストンには O60885/P62805、ledgf/in には O75475/P12497 を選択しました)。 より具体的な対応関係は、補足表 6 に記載されています。

タンパク質間相互作用の同定には、ホモ・サピエンス由来の 2434 タンパク質ペア、ハツカネズミ由来の 694 タンパク質ペア、出芽酵母由来の 11,188 タンパク質ペア、キイロショウジョウバエ由来の 2140 タンパク質ペア、ヘリコバクター・ピロリ由来の 2916 タンパク質ペアという 5 つのベンチマーク データセットが含まれます14。 各データセットは、同量の相互作用するペアと非相互作用するペアで構成されます。 陽性サンプルとして機能する相互作用タンパク質ペアは、相互作用タンパク質 (DIP) の公開データベースから収集されました 54。 アミノ酸が 50 個未満で、互いに 40% を超えるペア配列同一性を持つサンプルは、フラグメントと配列の類似性を減らすために除外されました。 各データセットの陰性サンプルは、異なる細胞内コンパートメント内のタンパク質ペアをランダムに選択することによって生成されました。 異なる細胞内コンパートメントに由来するタンパク質は通常、互いに相互作用せず、実際、この構造により陰性サンプルの識別において高い信頼性が保証されます 14。

この研究で使用されたデータセットの追加情報はすべて、補足ノート 4 にあります。

m 個の分子を含む特定の分子複合体について、対応する配列のセットを Sm = {s1, s2, … , sm}(m ≥ 2) と表します。 関連する NLP 1 埋め込みのセットは \(\{{\tau }_{{u}_{1}}^{(1)}({s}_{1}),{\tau }_{{ u}_{2}}^{(1)}({s}_{2}),\ldots ,{\tau }_{{u}_{m}}^{(1)}({s} _{m})\}\)。 ここで、下付き文字 (ui) は埋め込み次元です。たとえば、低分子 Transformer24 の潜在空間次元の場合は 512 です。 私たちの目標は、 \(\{{\tau }_ から最適な m 埋め込みモデル (\({\tau }_{z}^{(m)}({S}_{m})\)) を構築することです。 {{u}_{1}}^{(1)}({s}_{1})、{\タウ }_{{u}_{2}}^{(1)}({s}_ {2}),\ldots ,{\tau }_{{u}_{m}}^{(1)}({s}_{m})\}\)、複合体用。

一般に、q-embedding は下位形式で次の式として定義されます。

ここで、r + t = q、および \({S}_{r}=\{{s}_{{i}_{1}},{s}_{{i}_{2}},\ldots 、{s}_{{i}_{r}}\}、{S}_{t}=\{{s}_{{j}_{1}}、{s}_{{j}_ {2}},\ldots ,{s}_{{j}_{t}}\},\,{{{{{{{\rm{and}}}}}}}\,{S} _{q}=\{{s}_{{k}_{1}}、{s}_{{k}_{2}}、\ldots 、{s}_{{k}_{q} }\}\) はシーケンスの 3 つのサブセットです。 ここで、H は積分関数です。 この研究では、下位形式の戦略の均一性または不均一性に基づいて、H の選択として Stack、Prod、および Diff を適用しました。

具体的には、スタックは次のように定義できます。

ここで、⊕ は直接和です。

さらに、下位形式の戦略が同種である場合 (つまり、u = v、s = t)、Prod と Diff を次のように定義できます。

ここで、μ と σ は平均値と標準偏差です。

ここで、× と − はそれぞれ要素ごとの積と減算です。

この作業では、次のような個々の NLP 埋め込み (\({\tau }_{{u}_{j}}^{(1)}({s}_{j})\)) に対して最適化が行われます。 Transformer、autoencoder、LSTM、およびすべての統合機能 (H)、つまり Stack、Prod、Diff。

2 セットの機械学習アルゴリズムを使用します。 最初のセットは、人間の脳の複雑な機能からインスピレーションを得た深層学習アルゴリズムである人工ニューラル ネットワーク (ANN) です。 タスクごとに、ベイズ最適化 55 を使用して、ネットワーク サイズ、L2 ペナルティ パラメーター、学習率、バッチ サイズ、最大反復などのハイパーパラメーターの最適な組み合わせを検索します。 2 番目のモデルは、最も一般的なアンサンブル手法の 1 つである勾配ブースト決定ツリー (GBDT) です。 GBDT には、過学習に対する堅牢性、ハイパーパラメータに対する鈍感さ、パフォーマンスの有効性、解釈可能性の所有という利点があります。 GBDT は主に回帰タスクの実装に使用されました。 「n_estimators、max_ Depth、min_sample_split、subsample、max_features」を含むハイパーパラメータは、各タスクのデータ サイズと埋め込み次元に基づいて選択されます。 補足ノート 3 では、私たちの研究で使用された最適化戦略を紹介します。 ハイパーパラメータの詳細な設定は、補足表 2 に示されています。

ベイジアン最適化は、機械学習アルゴリズムのハイパーパラメーターを順次最適化する一般的なアプローチです。 ベイジアン最適化は、空間 \({{{{{{\mathcal{S}}}}}}}\) 内のブラックボックス関数 f(x) を最大化することです。

ハイパーパラメータの最適化では、\({{{{{{\mathcal{S}}}}}}}\) をハイパーパラメータの探索空間とみなすことができ、x* は最適なハイパーパラメータのセット、f( x) は、機械学習のパフォーマンスの評価指標です。

t 個のデータ点 Xt = (x1, x2, … , xt) とそれらの評価行列の値 Yt = (y1, y2, … , yt) が与えられると、ガウス プロセスは空間全体で f のランドスケープをモデル化できます \({{{ {{{{\mathcal{S}}}}}}}\) (Xt, Yt)56 を当てはめます。 任意の新しい点 x において、f(x) はガウス事後分布によってモデル化されます: \(p(f(x)| {X}_{t},{Y}_{t}) \sim {{{{{ {{\mathcal{N}}}}}}}({\mu }_{t}(x),{\sigma }_{t}^{2}(x))\)、ここで μt(x ) は平均値、σ はガウス過程回帰によって予測される f(x) の標準偏差です。

ここで、k はカーネル関数、K(x, Xt) は \({[K(x,{X}_{t})]}_{i} による x と Xt の要素の間のカーネル評価の行ベクトルです。 =k(x,{x}_{i})\)、K(Xt, Xt) は \({[K({X}_{t},{X}_{t}) のカーネル行列です。 ]}_{ij}=k({x}_{i},{x}_{j})\)。 ϵn は回帰から学習されるノイズ項です。

ベイズ最適化では、予測平均と標準偏差の両方が、次の評価データ ポイントの意思決定に使用されます。 貪欲な探索のために f(x) の平均値を最大化する点を選択することも、新しい知識を獲得して f(x) ランドスケープ上のガウス プロセスの精度を向上させるために最大の標準偏差を持つ点を選択することもできます。 貪欲な検索は、数回の反復で主に f(x) を最大化する可能性があり、不確実な点の探索は長期の反復で利益を得ることができます。 このような活用と探索のトレードオフのバランスを取るには、取得関数 α(x) を選択する必要があります。 次の評価点 xn の決定は、取得関数が最大化されるように選択されます。

この研究では、トレードオフを処理でき、ブラックボックス最適化の収束速度が速い信頼限界上限 (UCB) 取得を使用しました57。

補足 1 で紹介した評価指標 (補足式 1 から補足式 7) に加えて、RS スコア、RS インデックス、モデラビリティ インデックスについて以下に説明します。

残基類似度 (RS) プロットは、Hozumi et al.48 によって提案された、任意の数のクラスに適用できる新しい種類の視覚化および分析方法です。 RS プロットは、残差スコアと類似性スコアの 2 つのコンポーネントによって、指定されたデータの各サンプルを評価します。 指定されたデータセット \({\{({x}_{m},{y}_{m})| {x}_{m}\in {R}^{N},{y}_{m} について\in {Z}_{L}\}}_{m = 1}^{M}\)、サンプル (xm, ym) の残差スコアと類似性スコアは次のように定義されます。

ここで、l = ym、Cl = {xm∣ym = l}、および \({d}_{\max }=\mathop{\max }\nolimits_{{x}_{i},{x}_{j) }\in {C}_{l}}| | {x}_{i}-{x}_{j}| |\)。 0 ≤ Rm ≤ 1 および 0 ≤ Sm ≤ 1 であることに注意してください。サンプルが他のクラスから遠く離れている場合、そのサンプルの残差スコアはより大きくなります。 サンプルが適切にクラスター化されている場合、より大きな類似性スコアが得られます。

l 番目のクラスのクラス残差インデックス (CRI) とクラス類似性インデックス (CSI) は、 \({{{\mbox{CRI}}}}_{l}=\frac{1}{| { C}_{l}| }{\sum }_{m}{R}_{m}\) および \({{{\mbox{CSI}}}}_{l}=\frac{1}{ | {C}_{l}| }{\sum }_{m}{S}_{m}\)。 次に、クラスに依存しない残基インデックス (RI) と類似性インデックス (SI) を定義できます。

次に、偏差 R スコアと S スコアのクラスに依存しない評価を与える RS 指数を定義できます。

RSI の範囲は 0 ~ 1 であり、RSI が低いことは、R スコアと S スコアの間の偏差が大きいことを示していることに注意してください。

モデラビリティ指数は、分類タスクと回帰タスク、つまりそれぞれ MODIcl と MODIreg に対して独立して定義され、次のように定義されます 50,51:

ここで、L はクラスの数を表し、Ni は最初の最近傍が i 番目のクラスにもある i 番目のクラスのサンプル数、Mi は i 番目のクラスのサンプル数、M は合計サンプル数、\({C}_{i}^{1}\) は i 番目のサンプルの 1 近傍サンプル、Ki は \({C}_{i}^{1 内のサンプル数) }\) i 番目のサンプルを除き、yi は i 番目のサンプルの正規化されたラベルを表します。

すべての相互検証結果の標準偏差を補足表 1 にマークしました。再現性のために、実験の繰り返しを補足表 3 に示します。

研究デザインの詳細については、この記事にリンクされている Nature Portfolio Reporting Summary を参照してください。

すべてのデータセットは https://weilab.math.msu.edu/DataLibrary/2D/ で入手できます。 補足データ 1 は、図を再現するための .xlsx ファイルを提供します。 2、3、4、5。

ソース コードは https://github.com/WeilabMSU/SVS で入手できます。

Bryant, P.、Pozzati, G. & Elofsson, A. AlphaFold2 を使用したタンパク質間相互作用の予測の改善。 ナット。 共通。 13、1–11 (2022)。

Google スカラー

ジャンパー、J. et al. AlphaFold による高精度なタンパク質構造予測。 Nature 596, 583–589 (2021)。

論文 CAS PubMed PubMed Central Google Scholar

otović, E.、Njirjak, M.、Kalafatovic, D. & Mauša, G. 治療用ペプチドのリカレント ニューラル ネットワーク ベースの予測のための逐次プロパティ表現スキーム。 J.Chem. 情報モデル。 62、2961–2972 (2022)。

Qiu、Y.、Hu、J.、Wei、G.-W. クラスター学習を支援した指向性進化。 ナット。 計算します。 科学。 1、809–818 (2021)。

論文 PubMed PubMed Central Google Scholar

Planas, D. et al. SARS-CoV-2 ミクロンの抗体中和へのかなりの回避。 ネイチャー 602、671–675 (2022)。

論文 CAS PubMed Google Scholar

Zhang, QC、Petrey, D.、Garzón, JI、Deng, L. & Honig, B. PrePPI: タンパク質間相互作用の構造情報データベース。 核酸研究所 41、D828–D833 (2012)。

論文 PubMed PubMed Central Google Scholar

Kwon, Y.、Shin, W.-H.、Ko, J. & Lee, J. Ak スコア: 3D 畳み込みニューラル ネットワークのアンサンブルを使用した正確なタンパク質-リガンド結合親和性予測。 内部。 J.Mol. 科学。 21、8424 (2020)。

論文 CAS PubMed PubMed Central Google Scholar

Ballester, PJ & Mitchell, JB 分子ドッキングへの応用によるタンパク質とリガンドの結合親和性を予測するための機械学習アプローチ。 バイオインフォマティクス 26、1169–1175 (2010)。

論文 CAS PubMed Google Scholar

Zheng, L.、Fan, J. & Mu, Y. Onionnet: タンパク質-リガンド結合親和性予測のための多層分子間接触ベースの畳み込みニューラル ネットワーク。 ACS オメガ 4、15956–15965 (2019)。

論文 CAS PubMed PubMed Central Google Scholar

Cang、Z.、Mu、L.、Wei、G.-W. 機械学習ベースのスコアリングと仮想スクリーニングにおける生体分子の代数トポロジーの表現可能性。 PLoS コンピューティング。 バイオル。 14、e1005929 (2018)。

論文 PubMed PubMed Central Google Scholar

Nguyen, DD、Cang, Z. & Wei, G.-W. 生体分子データの数学的表現のレビュー。 物理学。 化学。 化学。 物理学。 22、4343–4367 (2020)。

論文 CAS PubMed PubMed Central Google Scholar

プリエト-マルティネス FD、アルシニエガ、M. & メディナ-フランコ、JL 分子ドッキング: 現在の進歩と課題。 TIP 化学生物科学専門ジャーナル https://doi.org/10.22201/fesz.23958723e.2018.0.143 (2018)。

周、X.-X.、王、Y.-B.、潘、Y.-J. & リー、W.-F. 中温性タンパク質と好熱性タンパク質の間のアミノ酸組成と結合パターンの違い。 アミノ酸 34、25–33 (2008)。

論文 CAS PubMed Google Scholar

Zhao, N.、Zhuo, M.、Tian, K. & Gong, X. 遺伝子配列の天然ベクターを使用したタンパク質間相互作用および非相互作用の予測。 共通。 バイオル。 5、1–11 (2022)。

記事 CAS Google Scholar

チョウ、K.-C. 擬似アミノ酸組成とバイオインフォマティクス、プロテオミクス、システム生物学におけるその応用。 カー。 プロテオミクス 6、262–274 (2009)。

記事 CAS Google Scholar

Zeng、Y.-h et al. 自己共分散アプローチに基づいてタンパク質のサブミトコンドリアの位置を予測するために、増強された Chou の擬似アミノ酸組成を使用します。 J.Theor. バイオル。 259、366–372 (2009)。

論文 CAS PubMed Google Scholar

Friedman, C.、Kra, P.、Yu, H.、Krauthammer, M. & Rzhetsky, A. Genies: 雑誌記事から分子経路を抽出するための自然言語処理システム。 バイオインフォマティクス 17(補足 1)、S74–S82 (2001)。

小野 徹、菱垣 洋、谷上 明、高木 哲. 生物学文献からのタンパク質間相互作用に関する情報の自動抽出。 バイオインフォマティクス 17、155–161 (2001)。

論文 CAS PubMed Google Scholar

Wang, Y. et al. タンパク質間相互作用を予測するための高効率な生物学的言語モデル。 セル 8、122 (2019)。

論文 CAS PubMed PubMed Central Google Scholar

Alley, EC、Khimulya, G.、Biswas, S.、AlQuraishi, M. & Church, GM 配列ベースの深層表現学習による合理的タンパク質工学の統合。 ナット。 方法 16、1315–1322 (2019)。

論文 CAS PubMed PubMed Central Google Scholar

Feng、H.ら。 DAT、SERT、NET ベースのインタラクトーム ネットワークによるコカイン中毒の機械学習分析。 J.Chem. 理論計算。 18、2703–2719 (2022)。

論文 CAS PubMed Google Scholar

Rives、A. et al. 生物学的な構造と機能は、教師なし学習を 2 億 5,000 万のタンパク質配列に拡張することで明らかになります。 手順国立アカデミー。 科学。 USA 118、e2016239118 (2021)。

Ji、Y.、Zhou、Z.、Liu、H. & Davuluri、RV DNAbert: ゲノム内の DNA 言語のトランスフォーマー モデルからの事前トレーニングされた双方向エンコーダー表現。 バイオインフォマティクス 37、2112–2120 (2021)。

論文 CAS PubMed Google Scholar

Chen、D.、Zheng、J.、Wei、G.-W. & Pan, F. 数億の分子から予測表現を抽出。 J.Phys. 化学。 レット。 12、10793–10801 (2021)。

論文 CAS PubMed PubMed Central Google Scholar

Vaswani、A. et al. 必要なのは注意力だけです。 上級神経情報プロセス。 システム。 30、(2017)。

Devlin, J.、Chang, M.-W.、Lee, K. & Toutanova, K. Bert: 言語理解のための深い双方向トランスフォーマーの事前トレーニング。 arXiv https://arxiv.org/abs/1810.04805 (2018) のプレプリント。

チェン、D.ら。 分子特性予測のための代数グラフ支援双方向トランスフォーマー。 ナット。 共通。 12、1–9 (2021)。

Google スカラー

Ramírez, D. & Caballero, J. 標的タンパク質に対するエナンチオマー対の結合親和性を比較するために一般的な分子ドッキング法を使用することは信頼できますか? 内部。 J.Mol. 科学。 17、525 (2016)。

論文 PubMed PubMed Central Google Scholar

Jain, AN タンパク質とリガンドのドッキングのスコアリング機能。 カー。 プロテインペプト。 科学。 7、407–420 (2006)。

論文 CAS PubMed Google Scholar

Steinbrecher, T. & Labahn, A. リガンドタンパク質結合研究における正確な自由エネルギー計算を目指して。 カー。 医学。 化学。 17、767–785 (2010)。

論文 CAS PubMed Google Scholar

Meng, Z. & Xia, K. タンパク質-リガンド結合親和性予測のための永続的なスペクトルベースの機械学習 (PerSpect ML)。 科学。 上級 7、eabc5329 (2021)。

論文 CAS PubMed PubMed Central Google Scholar

Pan, X. et al. AAスコア: 分子ドッキングのためのアミノ酸特異的相互作用に基づく新しいスコアリング関数。 J.Chem. 情報モデル。 62、2499–2509 (2022)。

論文 CAS PubMed Google Scholar

スー、M.ら。 スコアリング関数の比較評価: CASF-2016 アップデート。 J.Chem. 情報モデル。 59、895–913 (2018)。

論文 PubMed Google Scholar

Jiménez, J.、Skalic, M.、Martinez-Rosell, G. & De Fabritiis, G. KDEEP: 3D 畳み込みニューラル ネットワークによるタンパク質-リガンドの絶対結合親和性予測。 J.Chem. 情報モデル。 58、287–296 (2018)。

論文 PubMed Google Scholar

Wójcikowski, M.、Kukiełka, M.、Stepniewska-Dziubinska, MM、Siedlecki, P. タンパク質-リガンド拡張接続 (PLEC) フィンガープリントの開発と結合親和性予測へのその応用。 バイオインフォマティクス 35、1334–1341 (2019)。

論文 PubMed Google Scholar

Stepniewska-Dziubinska, MM、Zielenkiewicz, P. & Siedlecki, P. タンパク質-リガンド結合親和性予測のための深層学習モデルの開発と評価。 バイオインフォマティクス 34、3666–3674 (2018)。

論文 CAS PubMed PubMed Central Google Scholar

ジョーンズ、D. et al. 構造ベースのディープフュージョン推論により、タンパク質とリガンドの結合親和性予測が向上しました。 J.Chem. 情報モデル。 61、1583–1592 (2021)。

論文 CAS PubMed Google Scholar

Boyles, F.、Deane, CM & Morris, GM リガンドから学ぶ: リガンドベースの機能を使用して結合親和性予測を改善します。 バイオインフォマティクス 36、758–764 (2020)。

論文 CAS PubMed Google Scholar

Wang、M.、Cang、Z.、Wei、G.-W. 突然変異後のタンパク質間結合親和性の変化を予測するためのトポロジーベースのネットワークツリー。 ナット。 マッハ。 知性。 2、116–123 (2020)。

論文 PubMed PubMed Central Google Scholar

Liu, X.、Feng, H.、Wu, J. & Xia, K. 突然変異によるタンパク質間結合親和性の変化を予測するための Hom 複合体ベースの機械学習 (HCML)。 J.Chem. 情報モデル。 62、3961–3969 (2022)。

論文 CAS PubMed Google Scholar

Liu、Z.ら。 PDB全体のバインディング・データのコレクション: pdbbindデータベースの現在のステータス。 バイオインフォマティクス 31、405–412 (2015)。

論文 CAS PubMed Google Scholar

Rodrigues, CH、Pires, DE & Ascher, DB PDCSM-PPI: グラフベースのシグネチャを使用してタンパク質間相互作用阻害剤を特定します。 J.Chem. 情報モデル。 61、5438–5445 (2021)。

論文 CAS PubMed Google Scholar

Jubb, H.、Blundell, TL & Ascher, DB タンパク質間界面の柔軟性と小さなポケット: 創薬可能性に関する新たな洞察。 プログレ。 生物物理学。 モル。 バイオル。 119、2–9 (2015)。

論文 CAS PubMed PubMed Central Google Scholar

Laraia, L.、McKenzie, G.、Spring, DR、Venkitaraman, AR & Huggins, DJ タンパク質間相互作用を標的とする阻害剤の開発における化学的、生物学的、および計算上の課題を克服します。 化学。 バイオル。 22、689–703 (2015)。

論文 CAS PubMed PubMed Central Google Scholar

Watkins, AM & Arora, PS タンパク質間相互作用の構造に基づく阻害。 ユーロ。 J.Med. 化学。 94、480–488 (2015)。

論文 CAS PubMed Google Scholar

Sun, T.、Zhou, B.、Lai, L. & Pei, J. 深層学習アルゴリズムを使用した、タンパク質相互作用の配列ベースの予測。 BMCバイオインフォーム。 18、1–8 (2017)。

記事 CAS Google Scholar

ソング、B.ら。 タンパク質の空間構造を学習すると、タンパク質間相互作用の予測が向上します。 簡単な。 バイオインフォーム。 23、bbab558 (2022)。

穂積裕、王R、魏G.-W. CCP: 次元削減のための相関クラスタリングと投影。 arXiv https://arxiv.org/abs/2206.04189 (2022) でプレプリント。

Ripphausen, P.、Nisius, B. & Bajorath, J. リガンドベースの仮想スクリーニングの最先端。 ドラッグディスコブ。 今日、16、372–376 (2011)。

論文 CAS PubMed Google Scholar

ルケ・ルイス、I. & ゴメスニエト、M. Á. データセットのモデル化可能性の研究: モデル化可能性、競合性、および加重モデル化可能性インデックス。 J.Chem. 情報モデル。 58、1798–1814 (2018)。

論文 CAS PubMed Google Scholar

Marcou, G.、Horvath, D. & Varnek, A. カーネル ターゲット アラインメント パラメータ: 回帰タスクの新しいモデラビリティ尺度。 J.Chem. 情報モデル。 56、6–11 (2016)。

論文 CAS PubMed Google Scholar

Bernett, J.、Blumenthal, DB & List, M. 深い配列に基づくタンパク質間相互作用予測のブラック ボックスを解読します。 bioRxiv https://doi.org/10.1101/2023.01.18.524543 (2023) でプレプリント。

Qiu, Y. & Wei, G.-W. 永続的なスペクトル理論に基づいたタンパク質工学。 ナット。 計算します。 科学。 3、149–163 (2023)。

Xenarios、I. et al. Dip、相互作用タンパク質のデータベース: タンパク質相互作用の細胞ネットワークを研究するための研究ツール。 核酸研究所 30、303–305 (2002)。

論文 CAS PubMed PubMed Central Google Scholar

Snoek, J.、Larochelle, H. & Adams, RP 機械学習アルゴリズムの実践的なベイジアン最適化。 上級神経情報プロセス。 システム。 25、(2012)。

Williams, CK & Rasmussen, CE 機械学習のためのガウス プロセス、Vol. 2 (MIT プレス、2006)。

Srinivas, N.、Krause, A.、Kakade, SM & Seeger, M. バンディット環境におけるガウス プロセスの最適化: 後悔のない実験的デザイン。 プレプリント arXiv https://arxiv.org/abs/0912.3995 (2009)。

Wang, Y. et al. PCVMZM: 確率的分類ベクトル マシン モデルとゼルニケ モーメント記述子を組み合わせて、タンパク質配列からタンパク質間相互作用を予測します。 内部。 J.Mol. 科学。 18、1029 (2017)。

論文 CAS PubMed PubMed Central Google Scholar

リファレンスをダウンロードする

この研究は、NIH 助成金 R01GM126189 および R01AI164266、NSF 助成金 DMS-2052983、DMS-1761320、および IIS-1900473、NASA 助成金 80NSSC21M0023、MSU Foundation、Bristol-Myers Squibb 65109、およびファイザーによって部分的に支援されました。

ミシガン州立大学数学学部、イーストランシング、ミシガン州、48824、米国

リー・シェン、ホンソン・フォン、ユウチー・チウ、グオ・ウェイウェイ

ミシガン州立大学電気・コンピュータ工学部、イーストランシング、ミシガン州、48824、米国

グオ・ウェイウェイ

ミシガン州立大学生化学および分子生物学部、イーストランシング、ミシガン州、48824、米国

グオ・ウェイウェイ

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

著者全員がこの作品を発案し、原案、校閲、編集に参加しました。 LS、HF、YQ は実験を実施し、データを分析しました。 G.-WW は監督とリソースを提供し、資金を獲得しました。

Guo-Wei Wei への通信。

著者らは競合する利害関係を宣言していません。

Communications Biology は、この研究の査読に貢献してくれた Lurong Pan と他の匿名の査読者に感謝します。 主な担当編集者: Yun Lyna Luo、Gene Chong。 査読ファイルが利用可能です。

発行者注記 Springer Nature は、発行された地図および所属機関の管轄権の主張に関して中立を保っています。

オープン アクセス この記事はクリエイティブ コモンズ表示 4.0 国際ライセンスに基づいてライセンスされており、元の著者と情報源に適切なクレジットを表示する限り、あらゆる媒体または形式での使用、共有、翻案、配布、複製が許可されます。クリエイティブ コモンズ ライセンスへのリンクを提供し、変更が加えられたかどうかを示します。 この記事内の画像またはその他のサードパーティ素材は、素材のクレジットラインに別段の記載がない限り、記事のクリエイティブ コモンズ ライセンスに含まれています。 素材が記事のクリエイティブ コモンズ ライセンスに含まれておらず、意図した使用が法的規制で許可されていない場合、または許可されている使用を超えている場合は、著作権所有者から直接許可を得る必要があります。 このライセンスのコピーを表示するには、http://creativecommons.org/licenses/by/4.0/ にアクセスしてください。

転載と許可

Shen、L.、Feng、H.、Qiu、Y. 他。 SVSBI: 生体分子相互作用の配列ベースの仮想スクリーニング。 Commun Biol 6、536 (2023)。 https://doi.org/10.1038/s42003-023-04866-3

引用をダウンロード

受信日: 2023 年 1 月 10 日

受理日: 2023 年 4 月 24 日

公開日: 2023 年 5 月 18 日

DOI: https://doi.org/10.1038/s42003-023-04866-3

次のリンクを共有すると、誰でもこのコンテンツを読むことができます。

申し訳ございませんが、現在この記事の共有リンクは利用できません。

Springer Nature SharedIt コンテンツ共有イニシアチブによって提供

コメントを送信すると、利用規約とコミュニティ ガイドラインに従うことに同意したことになります。 虐待的なもの、または当社の規約やガイドラインに準拠していないものを見つけた場合は、不適切としてフラグを立ててください。