プロテオームのタンパク質言語を学ぶ | 株式会社クリアバイタリティ・イノベーションズ

Communications Biology volume 6、記事番号: 73 (2023) この記事を引用

5820 アクセス

10 オルトメトリック

メトリクスの詳細

タンパク質間相互作用 (PPI) は、タンパク質の機能発現に大きな影響を与えることにより、細胞の経路とプロセスを支配します。したがって、タンパク質間相互作用の結合部位を正確に同定することが、タンパク質の機能解析における重要なステップとなっています。しかし、ほとんどの計算手法は生物学的特徴に基づいて設計されているため、アミノ酸配列を分散ベクトル表現に直接エンコードして、タンパク質間結合イベントの特性をモデル化する利用可能なタンパク質言語モデルはありません。さらに、実験的に検出されたタンパク質相互作用部位の数は、タンパク質間相互作用やタンパク質複合体中のタンパク質部位の数よりもはるかに少ないため、データセットのパフォーマンスに改善の余地が残された不均衡なデータセットが生じます。これらの問題に対処するために、私たちはアンサンブル深層学習モデル (EDLM) ベースのタンパク質間相互作用 (PPI) サイト識別法 (EDLMPPI) を開発しました。評価結果では、EDLMPPI が、Dset_448、Dset_72、Dset_164 を含む 3 つの広く使用されているベンチマークデータセットに対するいくつかの PPI サイト予測モデルを含む最先端の技術を上回るパフォーマンスを示し、EDLMPPI がこれらの PPI サイト予測モデルよりも 10 近く優れていることが実証されました。平均精度の観点からは %。さらに、生物学的および解釈可能な分析は、さまざまな観点からタンパク質結合部位の同定および特性評価メカニズムに対する新たな洞察を提供します。 EDLMPPI Web サーバーは http://www.edlmppi.top:5002/ で入手できます。

タンパク質間相互作用（PPI）は、タンパク質の機能の解明を助けるだけでなく、細胞の生物学の大部分を解釈するのにも役立つ、すべての主要な細胞プロセスにおいて重要な役割を果たします。特に、これらのタンパク質相互作用における重要なタンパク質は、関連疾患における標的治療薬の開発の基礎を提供する可能性があり、疾患の根底にある分子基盤についても情報を提供します1。 BioLip2 や PDB3 など、タンパク質間相互作用部位のクエリに利用できるデータベースは多数ありますが、現在人間に知られているタンパク質の数が増加しているため、それらは圧倒的に見えます 4。同様に、ツーハイブリッド分析やアフィニティーシステムなどの結合部位を検出するための生物学的実験は、非常に時間と費用がかかります5。このギャップを埋めるために、タンパク質の相互作用と関連部位に対処するための多くの計算手法が開発されてきました。近年、ディープラーニングの強力な特徴抽出機能を組み込んだディープラーニングベースのタンパク質相互作用部位同定モデルが数多く提案されており、その結果、従来の機械学習と比較して予測性能が質的に飛躍しています。たとえば、Zeng et al.6 は、TextCNN を特徴抽出器として使用し、さまざまなサイズの畳み込みカーネルを使用して特徴を学習し、予測パフォーマンスを向上させることができます。 Xie et al.7 は、残基間の局所的な特徴を学習するために単純な CNN を採用しました。 Yang et al.8 は、アミノ酸相互作用部位を予測するための局所的な重み共有を備えたディープニューラルネットワークを発表しました。 Sun et al.9 は、膜貫通タンパク質の相互作用するアミノ酸を予測するための残差ニューラルネットワークに基づく深層学習アーキテクチャを開発しました。 Zhang et al.10 は、グローバルコンテキストを把握する LSTM の機能を使用して特徴のコンテキスト情報を学習することを目的として、簡略化された LSTM を使用して PPI を予測しました。 Li et al.11 は、CNN と RNN を組み込むことでローカルのコンテキスト情報と長距離の依存関係を統合し、モデルのパフォーマンスを向上させました。残念ながら、これらの計算手法のほとんどは非常に不安定で、特にこれらの非常に不均衡なベンチマークデータセットの場合、一般化が不十分であり、改善の余地があることが示唆されています。

一方で、タンパク質配列を特徴マトリックスにモデル化するために、多数のタンパク質配列コード化方法が提案されている。タンパク質相互作用部位のワンホットエンコーディングは、多くの計算アプローチで使用されている非常に効率的な方法です10、12。しかし、アミノ酸間の機能の違いを正確に表現することはできません。位置特異的スコアリング行列 (PSSM) は、配列と関数の間の関係を特徴付けるために配列レベルおよび残基レベルの予測タスクに頻繁に使用されます 4,6,10,11,13。PSSM は比較的時間がかかります。大規模なデータベースの配列アライメントが必要です。最近、自然言語処理における単語埋め込みモデルの開発により、タンパク質コーディングに対処できる可能性がもたらされました。 Word2Vec14、Doc2Vec15、fastText16、GloVe17 などの一部の単語埋め込みモデルは、バイオインフォマティクスの分野で広く採用されています。たとえば、Zeng et al.6 は、ProtVec18 に基づく静的単語埋め込みモデルを使用してアミノ酸をエンコードし、PPI 予測の精度を向上させました。 Yang et al.19 によって提案された iCircRBP-DHN は、Doc2Vec15 による circRNA-RBP 相互作用部位の同定精度を向上させます。 Min ら 20 は、遺伝子配列の埋め込み法として GloVe17 を使用してクロマチンアクセシビリティ予測を実行しました。 Hamid21 は Word2Vec22 を使用して、バクテリオシンを区別するためのタンパク質配列を表しました。残念ながら、このような静的な単語ベクトルの埋め込みでは、シーケンスと構造の間の関連性がうまく捕捉されず、シーケンスコンテキスト間の潜在的な接続が無視されます。これらの制限に対処するために、Bidirectional Encoder Representations from Transformers (BERT) モデルに代表される動的単語埋め込みは、意味解析において非常に優れたパフォーマンスを実証しており、大規模なラベルのないコーパスを事前にトレーニングすることでタンパク質配列の配列コンテキストを学習できます。双方向方式23、24、25。

私たちの研究では、図 1 に示すように、アンサンブル深層学習モデル (EDLMPPI) ベースのタンパク質間相互作用部位の特定方法を提案します。アミノ酸特徴抽出器としてトランスフォーマーアーキテクチャに基づく ProtT5 を採用することを提案します。各アミノ酸のグローバルな文脈上の関連付けを行い、その後、11 個の追加の特徴記述子を組み込んで、特徴表現をさらに充実させます。 EDLMPPI では、深層学習アーキテクチャは BiLSTM26 とカプセルネットワーク 27 から構成されており、BiLSTM はタンパク質配列の順方向と逆方向の両方の特徴を包括的に学習でき、カプセルネットワークはさらに特徴間の相関を発見できます。不均衡なデータセットの影響に対処するために、複数の深層学習モデルをトレーニングしてアンサンブル深層学習を形成し、予測を実行します。提案したEDLMPPIの有効性を調べるために、ネットワーク機構と特徴抽出部分の実験を行った。すべての実験は、「方法」セクションで説明されているトレーニングセットとテストセットに基づいています。検証セットはトレーニングセットの 20% としてランダムにトークン化され、層化ランダムサンプリングを使用して検証セットを分割し、トレーニングセットと検証セットの分布の一貫性を確保しました。 EDLMPPI の有効性を検証するために、ベンチマークデータセット上の 10 の異なる機械学習モデルおよび深層学習モデルと比較します。さらに、EDLMPPI を他の PPI サイト予測モデルと比較し、EDLMPPI が大差でリードしていることを実証しました。これは、EDLMPPI の特徴抽出とネットワークアーキテクチャの効率を検証します。 EDLMPPI の生物学的重要性を調べるために、タンパク質配列の構造ドメインを抽出します。他の方法と比較して、EDLMPPI によって予測された相互作用部位は、構造ドメイン内のネイティブ部位とより高い相関を示しました。さらに、EDLMPPI の特徴表現の内部プロセスを実証するために、解釈可能な分析を実施しました。 EDLMPPI 予測用の Web サーバーを http://www.edlmppi.top:5002/ に構築しました。

一方で、この設計は両方向の特徴間の相関関係を捉えることができ、コンテキスト情報を十分に考慮します。一方、カプセルは、特徴の次元を削減し、情報漏洩を回避し、アルゴリズムの効率を向上させながら、重要な情報を可能な限り保持することができます。

私たちの研究では、MBF（タンパク質残基の進化情報、物理的特性、物理化学的特性を含むマルチソース生物学的特徴）とProtT5をそれぞれモデルへの入力として組み合わせた特徴を形成するマルチチャネル戦略を採用しました。次に、2 セットのベクトルが連結され、ソフトマックス分類層の前で正規化されました。 MBF では、各残基のローカルコンテキスト情報をエンコードするためにスライディングウィンドウメカニズムが採用されており、これにより過剰適合を効果的に防止し、モデルの一般化を向上させることができます。また、ウィンドウサイズ n (n は奇数) の場合、一番中央のアミノ酸が予測対象アミノ酸となり、スライディングステップは 1 となります。そこで、まず最適なウィンドウを見つけるための実験を行いました。セット {5、11、15、21、25、33} からのさまざまなウィンドウサイズで MBF モデルのパフォーマンスを評価することによって、MBF のサイズを決定します。さまざまなウィンドウサイズの実験結果が、例として Dset_448 を使用して図 2a にまとめられています。このモデルが、AP、AUROC、MCC などのいくつかの主要なメトリクスによって測定された最高のパフォーマンスをウィンドウサイズ 25 で達成したことは明らかです。ただし、アルゴリズムの全体的なパフォーマンスはウィンドウサイズ 31 で低下しました。これは、ウィンドウが大きいほど、アルゴリズムの全体的なパフォーマンスが低下したことを示しています。必ずしも良いとは限りません。したがって、私たちの研究では、最終的なサイズとして 25 のウィンドウサイズを選択します。

異なるウィンドウサイズに対応する評価指標のレーダーチャート。 b ProtT5、MBF、および分類器の組み合わせ機能のパフォーマンス比較を示しています。ここで、「平均評価メトリック値」とは、8 つの評価メトリック (TPR、TNR、Pre、ACC、F1、MCC、AUROC、および AP) は、これら 3 つのデータセットのさまざまな特徴記述子に対応します。 c EDLMPPI アーキテクチャと 10 の主流の機械学習モデルおよびディープラーニングモデルとのパフォーマンス比較の実証: EDLMPPI は、主要なメトリクスにおいて特に優れています。 d 不均衡データセット解決のさまざまな方法間のパフォーマンス比較。ここで、「平均評価メトリクス値」とは、異なる方法の 8 つの評価メトリクス (TPR、TNR、Pre、ACC、F1、MCC、AUROC、AP を含む) の平均を指します。これら 3 つのデータセットに対するアルゴリズム。

さらに、提案した特徴記述子の優位性をさらに調査するために、EDLMPPI の組み合わせた特徴を、それぞれ MBF および ProtT5 を含む単一の特徴記述子と比較しました。実験結果を表 1 と図 2b に示します。 MBF と ProtT5 の特徴を組み合わせると、3 つのデータセットすべてで個々の特徴記述子よりも大幅に優れたパフォーマンスを示したことがわかります。実際、不均衡データを評価するために頻繁に使用される評価指標 AP では、結合された特徴が 3 つのデータセットでそれぞれ MBF を上回り、ProtT5 をそれぞれ 1.8%、3%、2.9% 上回っており、結合された特徴によりデータセットが強化されたことが明らかになりました。タンパク質の発現を向上させ、モデルのパフォーマンスを向上させました。さらに、Prot5 と MBF を比較すると、Prot5 の AP 値がこれら 3 つのデータセットよりも優れたパフォーマンスを示し、AUROC では MBF をそれぞれ 10.7%、11.2%、8.6% 上回っており、ダイナミックワードの有効性が明らかになりました。タンパク質間結合部位の予測への組み込み。その理由は、MBF が進化情報やその他の生物学的機能に基づいてアミノ酸の特異性を区別することが困難であるのに対し、ProtT5 は標識されたトレーニングデータからアミノ酸間の違い (結合部位と非結合部位) をよりよく捕捉したためである可能性があります。

近年、Transformer アーキテクチャに基づく言語モデルがタンパク質の予測問題に広く使用されています。セルフアテンションベースの Transformer は、残基間の 2 対 2 の関連性を直接計算し、異なる位置にあるアミノ酸間の相互依存性を捕捉できます。 ProtT5 に加えて、ESM-1b28 や ProGen229 などのいくつかの代替タンパク質事前トレーニングモデルが、タンパク質配列の特徴を明らかにするために提案されています。 ESM-1b は、Uniref50 2018_03 データベースを教師なしトレーニングコーパスとして使用する RoBERTa ベースのアーキテクチャを使用し、アクティベーション前層の正規化を使用してトランスレーターのハイパーパラメーターを最適化します。 ProGen2 は 64 億のパラメーターにスケールされ、ゲノム、メタゲノム、免疫レパトアデータベースからの 10 億を超えるタンパク質を含むさまざまな配列データセットでトレーニングされました。公平な比較のために、ProtT5 によって学習された埋め込み表現を ESM-1b および ProGen2 によって学習された埋め込み表現に置き換えました。実験結果を表 2 にまとめます。この表に示すように、AP および AUROC において ProtT5 が ESM-1b および ProGen2 よりも優れていることが観察され、ProtT5 がタンパク質間結合のアミノ酸配列の特徴付けにより適していることが示されています。イベント。

結合部位の残基の数は総数の 10 分の 1 にすぎないため、この不均衡なデータにより、モデルのトレーニングが主要なクラスに焦点を当て、マイナーなクラスを無視するようになり、モデルの過剰適合につながります 30、31、32。この問題に対処するために、アンサンブル深層学習を採用して、不均衡なデータセットのカテゴリの偏った分布に対処することを提案しました。アンサンブルモデルのパフォーマンスを調査するために、これら 3 つのデータセットの下で、コスト重視モデル 33、ランダムオーバーサンプリング 34、およびランダムアンダーサンプリング 34 を含む、他の 3 つの異なる不均衡データ処理アルゴリズムとアンサンブルモデルを比較しました。詳細には、コスト重視のモデル 33 は、分類エラーの総コストを最小限に抑えることにより、カテゴリのサンプルに焦点を当てます。 Over-sampling34 はランダムサンプリングによって過小評価されたクラスの新しいサンプルを生成しますが、under-sampling34 は主要なクラスのサンプルから冗長なサンプルをランダムに削除します。

実験結果を表 3 と図 2d にまとめます。一般に、アンサンブルモデルが最も優れたパフォーマンスを示し、より高い MCC、AUROC、AP スコアを取得しました。 3 つのデータセットの AP スコアに関しては、アンサンブル学習アルゴリズムが競合アルゴリズムをそれぞれ 46.0%、33.0%、41.3% と相対的に上回っており、非対称バギング法による汎化パフォーマンスの向上が示されています。さらに、3 つのデータセットに対するオーバーサンプリング法の平均精度は、それぞれ 43.9%、31.5%、40.4% でしたが、オーバーサンプリング法は特徴と特徴の間の依存関係を破壊するため、アンサンブル学習法よりも低くなりました。特徴間の相関関係を見つけるモデルの能力が制限されます。アンダーサンプリング手法は、アンサンブル深層学習モデルのサブモデルと見なすことができ、アンサンブル学習手法と比較して、3 つのデータセットすべてで AUROC スコアと AP スコアが 1.1% ～ 3.9% 遅れていることは注目に値します。

要約すると、非対称バギングに基づくアンサンブル深層学習手法は、不均衡なデータセットの影響を比較的軽減することで、アルゴリズムの実行効率を確保し、識別パフォーマンスを向上させると結論付けることができます。

EDLMPPI の有効性を研究するために、3 つのアンサンブル学習メソッド (XGBoost35、LightGBM36、および CatBoost37) と、他の 2 つの機械学習メソッド、SGDClassifier (確率的勾配降下法)、および MLPClassifier (多層認識) を含む 5 つの機械学習メソッドと EDLMPPI を比較しました。）。図 2c と表 4 は、3 つすべてのデータセットに対するさまざまなアルゴリズムの実験結果を示しています。結果から、私たちが提案したモデルは、3 つのデータセットすべてにおいて他の 5 つの機械学習アルゴリズムよりも優れたパフォーマンスを示したことがわかります。特に、Dset_448 では、EDLMPPI は 3 つのデータセットの平均 AUROC で 2.1 ～ 3.4%、平均 AP で 3.0 ～ 6.2% 機械学習手法を上回っており、EDLMPPI の予測能力が大幅に向上していることを示しています。さらに、EDLMPPI とこれらの機械学習アルゴリズムでは同じ特徴記述子が採用されているため、この結果から、深層学習手法の総合的なパフォーマンスが従来の機械学習よりも強力であることが観察され、深層学習手法が可能性を探求できることを示しています。タンパク質の配列と構造の間のつながりがより良くなり、それによってタンパク質結合部位の予測性能が向上し、EDLMPPI の有効性がさらに証明されます。

EDLMPPI の改訂されたアーキテクチャの有効性と洗練性を検証するために、同じ機能記述子を使用して、TextCNN38、Single-Capsule27、BiLSTM39、BiGRU40、および Multi-Head Attendance41 を含む他の 5 つの深層学習モデルと比較しました。さまざまな深層学習モデルの実験結果を図 2c と表 4 に示します。ここでは、評価指標 AP によって測定された EDLMPPI が他の深層学習モデルよりも比較的優れたパフォーマンスを示し、2 位のマルチヘッドモデルを上回っていることがわかります。 3 つのデータセットに対する注目度はそれぞれ 1.2%、2.2%、1.2% でした。さらに、TextCNN のパフォーマンスの直感的な見方は、他のいくつかの深層学習モデルよりも弱かった。これは、CNN 構造が局所的な特徴のみを抽出し、Prot5 のコンテキストベースの埋め込みの整合性を損なうという私たちの予想と一致している。さらに、LSTM と GRU は Dset_448 と Dset_72 では同等のパフォーマンスを示しますが、Dset 164 では LSTM の方が GRU よりも優れたパフォーマンスを示します。これが、最終モデル EDLMPPI の長期依存関係を学習するために LSTM を選択した理由です。

EDLMPPI によってもたらされる進歩をさらにテストするために、SPPIDER42、SPRINT43、PSIVER44、SPRINGS45、LORIS46、CRFPPI47、SSWRF48、DLPred49、SCRIBER13、DELPHI11 を含む 10 個の現在の PPI 予測手法と比較しました。 Web サーバーまたはこれらのアルゴリズムの利用可能なソースコードを通じて、テストデータセット内の各タンパク質配列の予測スコアを取得しました。評価基準として TPR、TNR、Pre、ACC、F1、MCC、AUROC、AP を採用し、不均衡データの評価によく使用されるモデルのメリットを評価するための重要な決定要因として MCC、AUROC、AP を採用しました13。予測結果は表 5 と図 3a にまとめられています。

a EDLMPPI と他の 10 の競合手法との比較結果を示します。「評価指標の平均値」は 8 つの評価指標 (TPR、TNR、Pre、ACC、F1、MCC、AUROC、AP を含む) の平均を指します。これら 3 つのデータセットに対するさまざまな方法について説明します。 b EDLMPPI、DELPHI、および SCRIBER からの予測 PPI とネイティブ PPI の比較。各ドメインの PPI の割合を計算すると、EDLMPPI とネイティブ PPI の相関関係が最も高くなります。

EDLMPPI は、ほとんどの評価指標において他の PPI 予測手法よりも優れており、3 つのデータセットの AUROC はそれぞれ 82.0%、78.8%、75.5% であり、DELPHI 手法の 73.7%、71.1%、および 75.5% よりも大幅に高いことがわかります。それぞれ68.5%。さらに、平均精度 (AP) に関しては、3 つのデータセットで EDLMPPI が DELPHI をそれぞれ 12.3%、9.3%、8.1% 上回り、大幅な改善をもたらしました。その理由は、EDLMPPI が自己注意メカニズムのトランスフォーマーに基づいてアミノ酸の長距離依存性問題に対処できるためであると考えられます。これは、グローバルな文脈上の特徴と意味情報を完全に探索し、私たちが提案する深層学習アーキテクチャが重要な貢献を提供することを示しています。正確な分類。さらに、進化情報やいくつかの物理化学的特性などの伝統的な生物学的特徴を組み込んで、ProtT5 の潜在的な欠点を埋めることで、識別性能をさらに向上させました。特に、全長配列と比較すると、EDLMPPI は Dset_448 データセットでより高い利点を示し、完全なタンパク質配列の機能発現においては私たちの特徴抽出方法がより優れており、より正確である可能性があることを示唆しています。全体として、EDLMPPI は既存の方法よりも大幅に進歩しており、タンパク質間相互作用部位のアノテーションの補完ツールとして使用できます。

タンパク質ドメインはタンパク質の生理学的機能の完成と密接に関係しており、タンパク質の細胞機能の構造的基礎として機能します50。タンパク質の構造ドメインとタンパク質間相互作用部位の間の潜在的な関係についての洞察を得るために、EDLMPPI がタンパク質ドメインの PPI を正確に予測するかどうかを検証する実験を実行しました。 Dset_448 データセット内の 448 個のタンパク質配列に Pfam51 によってアノテーションを付け、重複する構造ドメインを削除し、最終的に 501 個の構造ドメインを取得しました。図3bは、EDLMPPI、DELPHI、SCRIBER13の予測結果を比較しながら、各サイズの構造ドメインとその中のPPIの数との対応を示しています。さらに、実験の合理性を高めるためにコントロールグループを追加しました。タンパク質ドメインと同じサイズのフラグメントが配列からランダムに選択されました。結果から、EDLMPPI の予測結果は他の 2 つの方法よりも楽観的であり、EDLMPPI によって予測される PPI の数は構造ドメインの成長に伴って増加しました。以前の研究 52 によると、長さの異なるドメインのスーパーファミリーは高度に相互作用し、機能がより混合され、複数のタンパク質によって制御されており、このことはタンパク質の機能を予測する際の EDLMPPI の妥当性を裏付けています。さらに、構造ドメインごとに EDLMPPI、DELPHI、および SCRIBER によって推定された予測 PPI の割合をカウントし、真の割合ベクトルを使用してピアソン相関係数を計算しました。 EDLMPPI はネイティブアノテーションとのスコアが 0.70 で最も高い相関を示し、一方、DELPHI、SCRIBER、およびコントロールグループのスコアはそれぞれ 0.63、0.57、0.21 でした。

EDLMPPI がタンパク質ドメインの結合部位の性能を正確に予測できることをさらに示すために、高い触媒活性を持つ 3 つの酵素タンパク質、P19821 - DPO1_THEAQ、P9WHH9 - DLDH_MYCTU、および P17109 - MEND_ECOLI を選択し、さまざまな方法で予測される性能の違いを実証しました。 SCRIBER と DELPHI は他の PPI 部位予測モデルよりも PPI の予測において優れたパフォーマンスを提供したため、これら 3 つの配列種における SCRIBER と DELPHI の予測結果を比較として使用しました。結果を表 6 に示します。 P19821 - DPO1_THEAQ のサイズは 337 で、実験的に検出された PPI の実際の数は 31 で、EDLMPPI の予測は 36 であり、SCRIBER や DELPHI と比較して実際の数に近かったです。このパフォーマンスは、P9WHH9 - DLDH_MYCTU および P17109 - MEND_ECOLI でより顕著であり、EDLMPPI によって予測された PPI の数が真の値とわずか 1 ～ 2 だけ異なっており、タンパク質構造ドメインの結合部位の予測および検証における EDLMPPI の有効性を示しています。 EDLMPPI はタンパク質の構造ドメインにより多くの結合部位を提供できるという以前の結論。

EDLMPPIアーキテクチャの有効性を調査するために、図4aに示すように、さまざまな段階でモデルの中間層出力を抽出し、それらをクラスタリング用の2次元空間にマッピングしました。元の埋め込みは無計画に分散されていることがわかりますが、BiLSTM 層の後では、より明らかなクラスタリング効果が見られます。カプセル層は重要な分類特徴をさらに保存しており、結合部位と非結合部位は別個のクラスターとして現れました。最後に、ソフトマックス関数の後、正確な識別が達成されました。

a t-SNE フローグラフは、EDLMPPI アーキテクチャのさまざまな中間層の出力のクラスタリング効果を示します。 b PPI の同定に最も大きな影響を与える 20 個の特徴。非結合部位と結合部位の予測にそれぞれどのように作用するかを明らかにします。 c 概略図は、フィーチャ 1024 と他のフィーチャの間の相互作用、およびフィーチャ 569 と他のフィーチャの間の相互作用をそれぞれ示しています。 d 各サンプルに対する各機能の効果を示す積み上げ図。

さらに、タンパク質間結合部位の認識と相互作用関係に対するさまざまな特徴の寄与を調査しました。図 4b は、PPI の同定に最も大きな影響を与える 20 個の特徴を示し、それらがそれぞれ非結合部位と結合部位の予測にどのように作用するかを示しています。赤色は高い特徴値を表し、青色は低い特徴値を表します。特徴１０２７および３３を例に挙げると、より高い特徴１０２７はサンプルを結合部位として分類する傾向があり、一方、より高い特徴３３はサンプルを非結合部位として分類する可能性がより高い。モデルに対する単一のフィーチャの影響と比較して、フィーチャ間の相互作用の方が重要です。図 4c は、機能 1027 および機能 569 が他の機能とどのように相互作用するかを示しています。特徴 1027 には他の特徴との有意な相互作用がなかったことに注目します。これは、特徴 1027 が溶媒へのアクセス可能性を表し、他の特徴にあまり依存せずに長さ 1 のベクトルとしてエンコードされるという我々の判断と一致します。一方、特徴 569 と特徴 72 の間には強い相関が示され、特徴 569 の値が低いほど分類に対する特徴 72 の効果が弱まっています。これは、ProtT5 がグローバルなコンテキスト依存性を含んでいることと、特徴の表現に起因しています。他の機能との連携動作に基づいており、ProtT5 の有効性がさらに検証されます。図4dは、各サンプルに対する各特徴の影響を示す積み上げ図であり、どの特徴がサンプルの識別に影響を与えるかを観察できます。

EDLMPPI の動作をより深く理解するために、信頼性を確保するために ProtT5 埋め込みの内部プロセスを調査しました。まず、完全なタンパク質配列を選択し、ProtT5 を使用してコード化しました。各アミノ酸埋め込みベクトルについて、ピアソン相関係数を適用して残基間の相関を記述しました。結果は図5aに表示されています。各アミノ酸は常にそれに近いアミノ酸と強い相関関係を持っていますが、距離が遠くなってもProtT5は依然としてアミノ酸間の関連を捕捉でき、ProtT5のバランスが取れていることを示唆しています。ローカルな影響と長期的な依存。プロセスをさらに進めるために、ProtT5 の各アテンションヘッドと各レイヤーを視覚化するために Bertviz53 を適用しました。結果は図 5b、c に示されています。異なる色は異なるアテンションヘッドを表し、線の彩度は注意を表します。得点。図 5b(a) は、すべてのアテンションヘッドのアテンションの最初の層を示しています。これは完全な接続にほぼ似ており、各残基について、すべてのアテンションヘッドが他の残基のターゲットとの関連性を見つけようとしたことを意味します。は、すべての残基の注意を運ぶ配列スプリッターとして機能します。これは、ProtT5 の場合、配列の全体的な同一性がすべてのアミノ酸の組み合わせによって決定されることを示しています。さらに、図 5b(d) は、異なるアテンションヘッドにおけるターゲットアミノ酸の流れを明確に示しており、より高い注意が近くにあるほど見られるという以前の記述を裏付けています。さらに、図5cは、異なる層における各注意ヘッドの進化を視覚化しています。層が深くなるにつれて、注意パターンは、異なるアミノ酸間の関連に焦点を当てることから、アミノ酸配列の発現を伝達することに移行しました。要約すると、ProtT5 はタンパク質レベルの構造とその機能の間の関係を局所から全体に至るまで探索することができ、EDLMPPI がタンパク質間相互作用の結合部位を効果的に予測するという合理的な解釈を提供します。

ProtT5 埋め込み下の各残基の相関ヒートマップ。 b 異なるレイヤーと異なるアテンションヘッドを含むアテンションビュー。 c 異なるレイヤー間のアテンションフロービュー。各色は異なるレイヤーを表します。

研究者の利用を容易にし、モデルを改善し、タンパク質結合部位予測の進歩を加速するために、PPI 用の完全に機能する EDLMPPI オンライン予測 Web サーバーを開発しました。これは http://www.edlmppi.top:5002/ で入手できます。 ProtT5 の限られた計算リソースと大規模な計算能力を考慮して、ローカル環境で ProtT5 環境をセットアップし、モデルをダウンロードし、さまざまなシナリオで特徴を抽出する方法をユーザーに根気よく指導します。さらに、オンライン予測サーバーは、抽出した ProtT5 特徴を EDLMPPI サーバーに直接アップロードすることもユーザーに推奨します。これにより、結果の解釈を含む予測結果を電子メールで返すことができます。さらに、オープンソースのデータとコードを GitHub 上で同期しており、https://github.com/houzl3416/EDLMPPI.git からアクセスできます。

補足図 1 は主要なモジュールをまとめており、補足図 1a は、ProtT5 を入手する 3 つの方法 (デバイス上での抽出、Colab 上での抽出、または提供されるファイルのダウンロード) を含むメインインターフェイスを示しています。補足図 1b は、予測モジュールを示しています。ProtT5 機能がアップロードされると、サーバーは予測結果をユーザーの電子メールに自動的に送信できます。最後に、補足図 1c に示すダウンロード可能なモジュールがあり、ユーザーはリンクを直接クリックしてデータセットとモデルを迅速にダウンロードできます。

この研究では、EDLMPPI と呼ばれるアンサンブル深層学習モデルに基づくタンパク質間相互作用部位予測手法を提案します。EDLMPPI は、トランスフォーマーアーキテクチャに基づく動的単語埋め込みモデルをタンパク質間相互作用部位の研究に適応させ、ProtT5 を使用して11 個のマルチソース生物学的特徴を統合して、特徴表現をさらに充実させながら、残基間の文脈情報および位置情報を取得します。一方、タンパク質配列のローカルコンテキスト依存性とグローバルコンテキスト依存性の両方を捕捉し、データの不均衡問題を効果的に解決するマルチチャネル統合深層学習モデルを開発しました。

EDLMPPI の有効性を実証するために、広く使用されている 3 つのベンチマークデータセットで 10 の異なる従来の機械学習およびディープラーニングモデルと EDLMPPI を比較しました。さらに、EDLMPPI を他の PPI Web サイト予測モデルと比較したところ、EDLMPPI の予測パフォーマンスにより、これらのモデルよりも予測が向上しました。さらに、タンパク質の構造ドメインにおける PPI の予測において、EDLMPPI はより生物学的に一貫した結果を示します。これは、EDLMPPI が特定の生物学的分析の能力を備えており、生物学者がタンパク質に対して特定の実験を行うようガイドするために使用できることを示しています。一方、解釈可能性分析は EDLMPPI モデルの内部ビジョンを完全に実証し、モデルの合理性をさらに強化します。

さらに、EDLMPPI オンライン予測 Web サーバーのリリースにより、モデルのトレーニングと予測に関する詳細なガイダンスが提供され、実験結果が再現可能で運用可能であることが保証されます。コードとデータは https://github.com/houzl3416/EDLMPPI.git でオープンソース化されています。

要約すると、EDLMPPI は、高効率と高精度という利点を備えた、非常に競争力の高いタンパク質間相互作用部位予測ツールであり、タンパク質相互作用部位同定の新しい代替手段となることが証明されています。これは、タンパク質間相互作用部位予測のタスクに新しいアイデアと洞察を提供し、生物学者が PPI 予測と下流分析作業を効果的に実装するための重要なアシスタントとしても機能します。また、ウェブサーバーのリリースにより、他の研究者の作業が大幅に促進され、モデルを改善し、より効果的な予測結果を達成することができます。将来的には、他の動的単語埋め込みモデルを提案モデルに組み込み、他の関連するタンパク質同定問題に適応させる予定です。

データセットについては、広く使用されている 3 つのベンチマークデータセット、Dset_18654、Dset_7254、および Dset_16455 を収集しました。 Dset_186 は PDB データベース 3 から構築されており、分解能 <3.0 Å、配列相同性 <25% の 186 個のタンパク質配列が含まれています。このデータセットは、同一の UniprotKB/Swiss-Prot アクセッションを持つ鎖の除去、膜貫通タンパク質の除去、二量体構造の除去、特定の範囲内に埋もれた表面アクセス性と界面極性を持つタンパク質の除去など、複数のステップで精製されました。そして類似点の除去。 Dset_72 と Dset_164 は Dset_186 と同じ方法で構築され、それぞれ 72 個と 186 個のタンパク質配列で構成されています。

さらに、Dset_1291 は BioLip データベースからのデータセットであり、残基の原子と特定のタンパク質パートナーの原子の間の距離が 0.5 Å に 2 つの原子のファンデルワールス半径の合計を加えたものである場合に結合部位が定義されます13。 Zhang et al.13 は、断片化されたタンパク質を除去し、結合残基の注釈を同じ UniProt 配列に移しました。したがって、Blast-Clust 法では、配列間の類似性は 25% 未満に減少しました。最後に、Dset_843 (Dset_1291 の 843 シーケンス) を使用してモデルをトレーニングし、残りの 448 シーケンス (Dset_448) を独立したテストセットとして使用しました。

これらのデータセットを使用して、トレーニングセットとテストセットを構築しました。 Dset_843 と Dset_448 は完全長のタンパク質配列で構成されていますが、Dset_71、Dset_186、および Dset_164 は断片化された配列で構成されています。モデルの一般化可能性を高めるために、2 つの異なるタイプのデータセットを表す Dset_843 と Dset_186 をそれぞれトレーニングデータセットとして選択しました。次に、Dset_448、Dset_72、および Dset_164 を独立したテストセットとして使用して、さまざまな PPI サイト予測モデルのパフォーマンスをテストしました。さらに、トレーニングセットとテストセット間の類似性を減らすために、PSI-BlAST56 プロシージャを使用してトレーニングセットとテストセット間の一貫性冗長性の削除を実行し、類似性が 25% 未満であることを確認しました。補足表 1 は、各データセットのタンパク質残基の数と結合部位の割合をまとめたものです。データセットの分布が比較的不均衡であり、陽性サンプルが総サンプルサイズの 10 ～ 18% しか占めていないことが容易にわかります。、これはモデルの一般化可能性に課題をもたらします。

タンパク質間相互作用部位の構造的特徴を完全に調査するために、動的なグローバルコンテキスト情報やマルチソースの生物学的特徴を含むいくつかの特徴が、以下のようにタンパク質配列から抽出されます。

従来の生物学実験は高価であり、一部の深層学習ベースの技術は能力が低いため、タンパク質の特徴発現情報を表す動的単語埋め込みベースの ProtT524 を導入し、異なる配列間のグローバルなコンテキスト依存情報を取得します。アミノ酸は実験的に効果的な方法であることがすでに証明されています。具体的には、ProtT5 はグローバルコンテキストエンベディングの生成に使用されます。実際、ProtT5 はトランスフォーマーアーキテクチャ内の各アテンションヘッドの位置エンコーディングを学習し、それをすべてのレベルで共有します。 ProtT5 では、トレーニングコーパスは Uniref50 であり、これには 150 億のアミノ酸で構成される 4,500 万個のタンパク質配列が含まれています。このような巨大なトレーニングセットにより、ProtT5 が異なる種類または種族のタンパク質間の構造的および機能的接続を確実に捕捉できるようになります。

ProtT5 はまず、埋め込み層によって各アミノ酸を固定長のベクトルにマッピングします。さらに、ProtT5 の位置埋め込みは、対応するタンパク質配列内の各アミノ酸の相対位置情報をコード化するために使用され、セグメント埋め込みが導入されます。異なるタンパク質配列を区別するため。トークン埋め込み、セグメンテーション埋め込み、および位置埋め込みの合計により、基礎となる空間へのアミノ酸の非コンテキストマッピングが提供されるだけでなく、各タンパク質配列のアミノ酸依存性や、異なるタンパク質配列間の文脈上の関連性も拡張されます。次のように定義されます。

ここで、Wtok、Wseg、および Wpos は、トレーニングされる対応するパラメーター行列です。その後、トランスフォーマーアーキテクチャのマルチヘッドセルフアテンションメカニズムから学習した動的単語埋め込みを使用して、タンパク質配列内の関連するアミノ酸を関連付けます。これは、次の式で計算できます。

ここで、Q(Query)、K(Key)、V(Value) は m 回の線形変換を通じて取得され、すべての単語埋め込みを格納するために使用されます。 Zi は各注目ヘッドの注目を表し、Q、K、V のセットの一次変換によって計算されます。

実際、ProtT5 のアテンションスタックは 24 層で構成され、各層には 32 個のアテンションヘッドが含まれ、隠れ層のサイズは 1024 です。このスタックモードにより、各層が前の層の出力で動作できるようになります。このような単語埋め込みの繰り返しの組み合わせを通じて、ProtT5 はモデルの最も深い層に到達するにつれて、非常に豊富な表現を形成することができます23。したがって、私たちの研究では、注目スタックの最後の層の埋め込みを特徴表現に抽出します。

さらに、予測パフォーマンスを向上させるために、タンパク質残基の進化情報、物理的特性、および物理化学的特性にアクセスして、特徴の表現を強化しました。

(1) 位置特異的スコアリングマトリックス (PSSM): PSSM は、残基位置の進化的保存を記述する残基相互作用の特異性を表す柔軟な方法を提供します。それは次のように説明できます。

ここで、pa と pb はそれぞれアミノ酸 a と b が観察される確率を表し、M(a, b) は突然変異の確率スコアです。比較データベースとして Uniref90 を選択し、反復回数を 3 に設定し、PSI-BLAST によるしきい値を 0.001 に設定しました。

（２）物理的特性：物理的特性とは、グラフ指数、分極率、規格化ファンデルワールス体積、疎水性、等電点、スパイラル確率、シート確率である。参考文献で報告されている値を使用して同じ計算が実行されます。 57 を使用して、各アミノ酸の 7 次元ベクトルを取得します。

(3) 物理化学的性質: 異なる残基間の違いと関連性を正確に表現するために、アミノ酸の物理化学的性質を導入します。残基の物理化学的特性は、原子の数、静電荷の数、および潜在的な水素結合の数という 3 つの値によって記述されます。これらの値はアミノ酸の種類のみに関連しており、アミノ酸残基からの構造情報は含まれません。

ハイブリッド特徴スキームで重要な情報をより効率的に取得するために、図 1 に示すように、タンパク質間相互作用部位同定の特徴学習パフォーマンスを最大化するアンサンブルディープメモリーカプセルネットワーク (EDMCN) を開発しました。ディープメモリーカプセルネットワークは拡大します。従来のメモリネットワークを異なる出力サイズにリンクすることで、メモリネットワークの並列性を高め、異なる深さスケールでアミノ酸間の相関関係を捕捉します。さらに、カプセル構造は、特徴間の固有の接続をさらに調査し、サンプル間の位置情報を保持できます。さらに、モデルの一般化と安定性を促進するために、サンプル間の大きな不均衡を解決する非対称バギングアルゴリズムを導入しました。

LSTM39、GRU40 などの従来のメモリネットワークは、予測のための特徴のコンテキストの整理において良好な結果を達成しています。ただし、これらのモデルはパラメーターに依存するため、予測の安定性に大きく影響します。これに対処するために、モデルの汎化パフォーマンスを強化するためのディープメモリネットワークを開発しました。ディープメモリネットワークの中心的なアイデアは、異なる出力スケールを持つ複数のメモリネットワークを接続して、マルチスケールの方法で残基間の相関を捕捉することです。形式的には、主に 3 つのゲート (入力ゲート(i)、忘却ゲート(f)、出力ゲート(o)) を通るタンパク質情報の流れを制御します。これには、情報をいつ記憶し、更新し、利用するかが含まれます。忘却ゲートは、長期記憶 Mt−1 を受け入れ、どの部分を保持するか破棄するかを決定することによって機能します。タイムステップ t では、忘却ゲートは最初に前の隠れ状態 ht-1 と現在の入力情報 mt から忘却係数 ft を計算します。

ここで、σ はロジスティックシグモイド関数です。入力ゲートは主に、どの入力電流 mt がメモリセルを通過できるかを制御します。まず、流入速度 rt を制御する制御信号を生成します。

次に、入力ゲートは候補メモリセル \(\widetilde{{M}_{t}}\) を生成し、以前に解いた rt に基づいて最終的に入力ゲートを通過するメモリ情報を計算します。

最後に、出力ゲートは制御信号 gt を生成して mt をフィルター処理し、出力 Ot を取得します。

ディープメモリネットワークは、フィーチャ間のグローバルなコンテキスト依存関係を効果的にキャプチャしますが、ローカルフィーチャ間の強い相関関係が弱くなり、フィーチャタイプに関するトポロジ情報が失われる傾向があります。この問題を解決するために、カプセルネットワークを導入します27。直感的には、カプセルネットワークには、カプセルと呼ばれるニューロンとともに畳み込みネットワーク部分が含まれており、これが特徴の認識を決定し、特徴の重要性だけでなく、位置情報を含む特徴のさまざまな状態にも反映されます。このようにして、カプセルネットワークは、コンテキスト依存性の高い特徴記述方法の特徴間の潜在的な関連性を効果的にキャプチャできます。

カプセルネットワーク内のカプセルニューロンの構造を図 1 に示します。カプセルネットワークでは、カプセルニューロンは、カプセル c1、c2、…、ci の現在の層に対して完全接続と同様の方法で接続されます。ローカルフィーチャとグローバルフィーチャの間の位置関係は、ポーズ変換 (移動、回転、収縮) を通じて学習されます。

ここで、Wij は重み行列です。次に、変換された各ベクトルに結合係数 oij を乗算し、それを次のカプセル層に渡し、次の層の j 番目のカプセルで受信したすべてのニューロン信号を合計します。

oij は次のように計算できます。

ここで、bij は 2 つのカプセルが接続されているかどうかの対数事前確率です。シグモイドと同様に、ベクトルを [0, 1] にマッピングするために squash27 と呼ばれる非線形活性化関数が使用され、この層のカプセル出力 vj は次のように計算できます。

私たちが提案するモデルの安定性と一般化パフォーマンスをさらに向上させるために、非対称バギングアルゴリズム 58 に基づくアンサンブル学習方法を適用して、不均衡なデータセット内のカテゴリの偏った分布に対処します。バギングは、一般的なアンサンブル学習手法の 1 つです59。これは、複数の異なる分類器の予測結果を統合し、決定フェーズで投票原理を使用してサンプルのクラスを決定でき、分散を削減し、モデルの一般化パフォーマンスを促進することを目的としています。。実際、バギングによる分散削減の原理は次の方程式で表されます。

ここで、X は独立したサンプルを表し、Var(X) は分散、E(X) はサンプル X の平均を表します。次に、同一の分布と各モデルの分散を持つ n 個の独立したモデルがあると仮定すると、次のことがわかります。が σ2 である場合、アンサンブルモデルの分散は方程式から推定できます。 (16) と (17) を σ2/n として表します。バギングはプットバックサンプリングでサンプリングされるため、データセット間に重複サンプルが存在し、式 1 の独立性の仮定に違反します。 (18)。この場合、各モデル間の相関係数 rho に基づくアンサンブルモデルの分散は次のように表すことができます。

その下では、分類器の数が増加するか、単一モデル間の相関が減少するにつれて、アンサンブルモデルの分散はさらに減少します。上記の観察に動機付けられて、私たちはこの目標を達成するために非対称バギングアルゴリズムを採用することを提案しました。データセット S については、各反復でタンパク質結合部位のすべてのサンプルを Sp として保持し、Sp と同じスケールのサブセット \({S}_{n}^{{\prime} }\) をデータセットから分離します。非結合部位のサンプル Sn。このステップは、トレーニングプロセスがすべてのサンプルをカバーするまで、置換なしでサンプリングのために繰り返され、最終的に複数の分類器が取得できるようになります。その後、サンプルごとにこれらの複数の分類器によって取得されたソフトマックス値を合計して、最終的な識別の決定を行います。これに基づいて、非対称バギングは各モデルの入力データのバランスのとれたクラス分布を適切に確保し、個々のモデル間の相関を可能な限り低く保つことができます。アンサンブルモデルは計算の複雑さを増加させる可能性がありますが、非対称バギングでの並列処理の実現可能性により、十分な計算リソースを使用して実行時間を効果的に短縮できることに言及する価値があります。

私たちが提案する EDLMPPI の有効性を実証するために、それをいくつかの従来の機械学習手法および深層学習手法と比較します。次のセクションでは、これらのアルゴリズムのパラメーター設定の詳細を示します。

EDLMPPI の場合、活性化関数として Tanh 関数を使用し、一様分布を持つ Glorot イニシャライザを採用して BiLSTM 部分の重みを初期化します。次に、隠れ層のニューロンの数について、候補値のセット [32、64、128、256] を固定します。カプセルネットワークの場合、主なハイパーパラメータはニューラルカプセルの数と各ニューロンベクトルの次元であり、候補値 [32、64、128、256] および [3、5、7、10] のグループを設定します。、それぞれ。最良のハイパーパラメータを取得するために、Tensorflow 2.5.0 および Keras 2.4.3 でグリッド検索方法によって上記の 3 つの候補値のセットを最適化します。エポックは 100 に設定され、提案されたアルゴリズムのオーバーフィットを防ぐために早期停止メカニズムが適用されます。

TextCNN38、Single-Capsule27、BiLSTM39、BiGRU40、MultiHead Attendant41 などの他の深層学習アルゴリズムと公正な比較を行うために、ハイパーパラメータ最適化メソッドは EDLMPPI と同じ原理を使用しました。また、EDLMPPI と同じハイパーパラメータ最適化手法のルールを採用し、グリッド検索手順を使用して適切なハイパーパラメータを選択しました。 TextCNN の場合、さまざまなサイズの畳み込みカーネルのさまざまな組み合わせのテスト設定は、{{1, 3, 5, 7}、{7, 9, 11, 13}、{4, 5, 6, 7}、{7, 8, 9, 10}}。ここで、各組み合わせのフィルターの数は、それぞれ 16、32、64、128 から選択されます。 BiLSTM および BiGRU の隠れ層セルの数は {32, 64, 128} から選択されます。カプセルネットワークでは、ニューラルカプセルの数と各ニューロンベクトルの次元の候補値は、それぞれ {32, 64, 128, 256} と {3, 5, 7, 10} です。最後に、マルチヘッドアテンションネットワークは、{4、8、16、32} からアテンションヘッドの数を選択します。

機械学習メソッドには、3 つのアンサンブル学習メソッド (XGBoost35、LightGBM36、および CatBoost37)、SGDClassifier (確率的勾配降下法)、および MLPClassifier (多層パーセプトロン) が含まれており、これらは Python 環境の scikit-learn60 依存関係パッケージの下にあります。 XGBoost はレベルごとの決定ツリー構築戦略を採用し、LightGBM はリーフごとの構築戦略を使用し、CatBoost は完全なバイナリ決定ツリーを備えた対称ツリー構造を適用します。 SGDClassifier は、正規化線形法を使用した確率的勾配降下学習モデルです。損失勾配はサンプルごとに一度に推定され、モデルは強度減少スケジュールを使用してプロセス内で更新されます。 MLP は、複雑な問題を迅速に解決できる順方向構造の人工ニューラルネットワークです。グリッド検索手順は、これら 5 つの分類子に最適なハイパーパラメーターを見つけるためにも実行されます。候補パラメータと最適なパラメータの組み合わせを補足表 2 にまとめます。

さまざまな計算手法のパフォーマンスを評価するために、感度 (TPR)、特異度 (TNR)、精度 (Pre)、精度 (ACC)、F1 スコア (F1)、マシューズ相関係数 (MCC)、下面積を使用しました。受信機動作特性曲線 (AUROC) および測定基準としての平均精度 (AP) は、以下のように定式化できます。

ここで、真陽性 (TP) と偽陽性 (FP) は、それぞれ正しく予測された結合部位と誤って予測された結合部位の数を表します。真陰性 (TN) と偽陰性 (FN) は、それぞれ正しく予測された非結合部位と誤って予測された非結合部位の数を表します。 TPR はすべての陽性サンプル中の正しく予測された結合部位の割合を表し、TNR は全陰性サンプル中の正しく予測された非結合部位の割合を示し、Pre は予測された結合部位を持つすべてのサンプル中の正しく予測される確率を表します。

不均衡なデータでは、ACC はモデルの強みを正確に捉えることができないため、追加の評価指標として ACC を採用しました。さらに、別の 2 つの指標である AUROC と AP は、不均衡データを測定するために各アミノ酸の予測確率に関連して計算されます。 AUROC はサンプルの不均衡の影響を受けず、不均衡なデータにおけるモデルのパフォーマンスを正確に測定できます61。 AP は、データセット内の各しきい値の精度の加重平均であり、リコールの変化を重みとして使用します。これは次のように定義できます。

ここで、Rn と Pn は、n 番目のしきい値での再現率と適合率です。

データの統計分析は、Python ソフトウェアパッケージを使用して実行されました。非対称バギングアルゴリズムを使用してデータの不均衡に焦点を当て、実験結果への影響を軽減しました。実験の再現性は、各条件について少なくとも 3 回の独立した反復を実行することによって保証されました。異なる研究者によって反復が実行され、データは適切な統計検定を使用して結合および分析されました。全体として、私たちの実験は再現性が高くなるように設計されています。すべての材料と手順は方法セクションに明確に記載されており、データは標準的な統計手法を使用して慎重に収集および分析されました。これらの対策により、結果の信頼性と再現性が向上したと考えています。

研究デザインの詳細については、この記事にリンクされている Nature Portfolio Reporting Summary を参照してください。

私たちは、広く使用されている 4 つのベンチマークデータセット、Dset_186、Dset_72、Dset_164、および Dset_1291 を収集しました。 Dset_186、Dset_72、および Dset_164 は PDB データベースから構築されており、分解能 <3.0 Å、配列相同性 <25% の 422 個のタンパク質配列が含まれています。 Dset_1291 は BioLip データベースからのデータセットで、残基の原子と特定のタンパク質パートナーの原子の間の距離が 0.5 Å に 2 つの原子のファンデルワールス半径の合計を加えたものである場合に結合部位が定義されます。すべてのデータセットは、http://www.edlmppi.top:5002/ または https://github.com/houzl3416/EDLMPPI.git からダウンロードできます。また、グラフやチャートの数値ソースデータは https://doi.org/10.6084/m9.figshare.21778913.v1 からダウンロードできます。

すべてのコードは https://github.com/houzl3416/EDLMPPI.git で入手できます。

Titeca, K.、Lemmens, I.、Tavernier, J. & Eyckerman, S. 細胞タンパク質間相互作用の発見: 技術戦略と機会。質量スペクトル。改訂 38、79–111 (2019)。

記事 CAS Google Scholar

Yang, J.、Roy, A. & Zhang, Y. BioLiP: 生物学的に関連するリガンドとタンパク質の相互作用を対象とした、半手動で精選されたデータベース。核酸研究所 41、D1096–D1103 (2012)。

記事 Google Scholar

バーマン、HMら。プロテインデータバンク。核酸研究所 28、235–242 (2000)。

記事 CAS Google Scholar

Zhang, J. & Kurgan, L. タンパク質結合残基の配列に基づく予測因子のレビューと比較評価。簡単な。バイオインフォマ。 19、821–837 (2018)。

記事 Google Scholar

Drewes, G. & Bouwmeester, T. タンパク質間相互作用へのグローバルなアプローチ。カー。意見。セルバイオル。 15、199–205 (2003)。

記事 CAS Google Scholar

Zeng、M.ら。ローカルおよびグローバルな特徴とディープニューラルネットワークを組み合わせることによる、タンパク質間相互作用部位の予測。バイオインフォマティクス 36、1114–1120 (2020)。

CAS Google スカラー

Xie, Z.、Deng, X. & Shu, K. 畳み込みニューラルネットワークと改良されたデータセットを使用したタンパク質間相互作用部位の予測。内部。Ｊ．Ｍｏｌ．科学。 21、467 (2020)。

記事 CAS Google Scholar

Yang, L.、Han, Y.、Zhang, H.、Li, W.、Dai, Y. 深層学習における局所的な重み共有メカニズムによるタンパク質間相互作用の予測。 BioMed Res. 内部。 2020、1–11 (2020)。

CAS Google スカラー

Sun, J. & Frishman, D. 深層学習による、α-ヘリックス膜貫通タンパク質の相互作用部位の配列ベースの予測を改善しました。計算します。構造体。バイオテクノロジー。 J. 19, 1512–1530 (2021)。

記事 CAS Google Scholar

Zhang, B.、Li, J.、Quan, L.、Chen, Y. & Lü, Q. 簡略化された長期短期記憶ネットワークによるタンパク質間相互作用部位の配列ベースの予測。ニューロコンピューティング 357、86–100 (2019)。

記事 Google Scholar

Li, Y.、Golding, GB & Ilie, L. Delphi: タンパク質相互作用部位を予測するための正確なディープアンサンブルモデル。バイオインフォマティクス 37、896–904 (2021)。

記事 CAS Google Scholar

CAS Google スカラー

Zhang, J. & Kurgan, L. Scriber: タンパク質配列からのタンパク質結合残基の正確かつパートナータイプ特異的な予測。バイオインフォマティクス 35、i343–i353 (2019)。

記事 CAS Google Scholar

Mikolov, T.、Chen, K.、Corrado, G. & Dean, J. ベクトル空間における単語表現の効率的な推定。プレプリントは https://arxiv.org/abs/1301.3781 (2013) にあります。

Le, Q. & Mikolov, T. 文章と文書の分散表現。機械学習に関する国際会議 1188 ～ 1196 (PMLR、2014) で受賞。

Joulin, A.、Grave, E.、Bojanowski, P.、Mikolov, T. 効率的なテキスト分類のための秘訣の詰め合わせ。プレプリントは https://archives.org/abs/1607.01759 (2016) にあります。

Pennington, J.、Socher, R. & Manning, CD Glove: 単語表現のグローバルベクトル。自然言語処理における経験的手法に関する 2014 年会議議事録 (EMNLP) 1532–1543 (2014)。

Asgari, E. & Mofrad, MR 深いプロテオミクスとゲノミクスのための生物学的配列の連続分散表現。 PLoS ONE 10、e0141287 (2015)。

記事 Google Scholar

Yang, Y.、Hou, Z.、Ma, Z.、Li, X.、Wong, K.-C. iCircRBP-DHN: 深い階層ネットワークを使用した circRNA-RBP 相互作用部位の同定。簡単な。バイオインフォマ。 22、bbaa274（2021）。

記事 Google Scholar

Min, X.、Zeng, W.、Chen, N.、Chen, T. & Jiang, R. k-mer 埋め込みによる畳み込み長短期記憶ネットワークによるクロマチンアクセシビリティ予測。バイオインフォマティクス 33、i92–i101 (2017)。

記事 CAS Google Scholar

ハミッド、M.-N. & Friedberg, I. ディープリカレントニューラルネットワークによる単語埋め込みを使用した抗菌ペプチドの同定。バイオインフォマティクス 35、2009–2016 (2019)。

記事 CAS Google Scholar

Mikolov, T.、Sutskever, I.、Kai, C.、Corrado, G. & Dean, J. 単語とフレーズの分散表現とその構成性。神経情報処理システムの進歩 (2013)。

Devlin, J.、Chang, M.-W.、Lee, K. & Toutanova, K. Bert: 言語理解のための深い双方向トランスフォーマーの事前トレーニング。プレプリントは https://arxiv.org/abs/1810.04805 (2018) にあります。

エルナガー、A.ら。 Prottrans: 自己教師ありディープラーニングとハイパフォーマンスコンピューティングを通じて、言語コードの解読を目指しています。パターン分析とマシンインテリジェンスに関する IEEE トランザクション (2021)。

ハインツィンガー、M.ら。転移学習タンパク質配列を通じて生命言語の側面をモデル化します。 BMCバイオインフォマ。 20、1–17 (2019)。

記事 Google Scholar

Schuster, M. & Paliwal, KK 双方向リカレントニューラルネットワーク。 IEEEトランス。信号プロセス。 45、2673–2681 (1997)。

記事 Google Scholar

Sabour, S.、Frosst, N.、Hinton, GE カプセル間の動的ルーティング。神経情報処理システムの進歩 30 (2017)。

Rives、A. et al. 生物学的な構造と機能は、教師なし学習を 2 億 5,000 万のタンパク質配列に拡張することで明らかになります。手順国立アカデミー。科学。 USA 118、e2016239118 (2021)。

記事 CAS Google Scholar

Nijkamp, E.、Ruffolo, J.、Weinstein, EN、Naik, N. & Madani, A. Progen2: タンパク質言語モデルの境界の探索。プレプリントは https://arxiv.org/abs/2206.13517 (2022) にあります。

ワン、B.ら。タンパク質相互作用部位を予測するためのデータ処理戦略の不均衡。 IEEE/ACM トランス。計算します。バイオル。バイオインフォマ。 18、985–994 (2019)。

記事 Google Scholar

Yu, C.-Y.、Chou, L.-C. & チャン、DT-H. タンパク質の一次構造を使用して、不均衡データにおけるタンパク質間相互作用を予測します。 BMCバイオインフォマ。 11、1–10 (2010)。

記事 CAS Google Scholar

Hu, L.、Wang, X.、Huang, Y.-A.、Hu, P.、You, Z.-H. タンパク質間相互作用を予測するための計算モデルに関する調査。簡単な。バイオインフォマ。 22、bbab036（2021）。

記事 Google Scholar

Zhang, Z.-L.、Luo, X.-G.、García, S. & Herrera, F. マルチクラス問題と能力のない分類器に対処するための二値化技術を備えたコスト重視の逆伝播ニューラルネットワーク。応用ソフトコンピューティング。 56、357–367 (2017)。

記事 Google Scholar

Lemaître, G.、Nogueira, F. & Aridas, CK Imbalance-learn: 機械学習における不均衡なデータセットの呪いに取り組む Python ツールボックス。 J.マッハ。学ぶ。解像度 18、1–5 (2017)。

Google スカラー

Chen, T. & Guestrin, C. Xgboost: スケーラブルなツリーブーストシステム。第 22 回 ACM SIGKDD 知識発見とデータマイニング国際会議議事録 785–794 (2016)。

Ke、G.ら。 Lightgbm: 非常に効率的な勾配ブースティング決定木。上級神経情報プロセス。システム。 30、3146–3154 (2017)。

Google スカラー

Dorogush, AV、Ershov, V. & Gulin, A. Catboost: カテゴリ特徴量サポートによる勾配ブースティング。プレプリントは https://arxiv.org/abs/1810.11363 (2018) にあります。

Zhang, Y. & Wallace, B. 文分類のための畳み込みニューラルネットワーク (および実践者向けガイド) の感度分析。プレプリントは https://arxiv.org/abs/1510.03820 (2015) にあります。

Hochreiter, S. & Schmidhuber, J. 長期短期記憶。ニューラルコンピューティング。 9、1735–1780 (1997)。

記事 CAS Google Scholar

Dey, R. & Salem, FM ゲートリカレントユニット (GRU) ニューラルネットワークのゲートバリアント。 2017 年の IEEE 60th International Midwest Symposium on Circuits and Systems (MWSCAS) 1597–1600 (IEEE、2017)。

Vaswani、A. et al. 必要なのは注意力だけです。神経情報処理システムの進歩 5998–6008 (2017)。

Porollo, A. & Meller, J. タンパク質間相互作用の予測ベースのフィンガープリント。タンパク質: 構造、機能、生物情報。 66、630–645 (2007)。

記事 CAS Google Scholar

Taherzadeh、G.、Yang、Y.、Zhang、T.、Liew、AW-C. & Zhou, Y. サポートベクターマシンを使用したタンパク質-ペプチド結合部位の配列ベースの予測。Ｊ．Ｃｏｍｐｕｔａｔ．化学。 37、1223–1229 (2016)。

記事 CAS Google Scholar

村上 Y. & 水口 K. カーネル密度推定によるナイーブベイズ分類器をタンパク質間相互作用部位の予測に適用する。バイオインフォマティクス 26、1841–1848 (2010)。

記事 CAS Google Scholar

Singh, G.、Dhole, K.、Pai, PP & Mondal, S. Springs: 人工ニューラルネットワークを使用したタンパク質間相互作用サイトの予測。技術。 PeerJ PrePrints 代表 (2014)。

Dhole, K.、Singh, G.、Pai, PP、Mondal, S. L1-logreg 分類子によるタンパク質間相互作用部位の配列ベースの予測。Ｊ．Ｔｈｅｏｒ．バイオル。 348、47–54 (2014)。

記事 CAS Google Scholar

Wei、Z.-S.、Yang、J.-Y.、Shen、H.-B. & ユウ、D.-J. タンパク質間相互作用部位を予測するためのカスケードランダムフォレストアルゴリズム。 IEEEトランス。ナノバイオサイエンス。 14、746–760 (2015)。

記事 Google Scholar

Wei、Z.-S.、Han、K.、Yang、J.-Y.、Shen、H.-B. & ユウ、D.-J. SVM とサンプル重み付けランダムフォレストのアンサンブルによるタンパク質間相互作用部位の予測。ニューロコンピューティング 193、201–212 (2016)。

記事 Google Scholar

Wang, Y.、Zhang, H.、Zhong, H. & Xue, Z. タンパク質ドメインの同定方法とオンラインリソース。計算します。構造体。バイオテクノロジー。 J. 19、1145 (2021)。

記事 Google Scholar

ミストリー、J.ら。 Pfam: 2021 年のタンパク質ファミリーデータベース。Nucleic Acids Res. 49、D412–D419 (2021)。

記事 CAS Google Scholar

Sandhya、S. et al. タンパク質ドメインスーパーファミリー間の長さの違いと構造と機能への影響。 PLoS ONE 4、e4981 (2009)。

記事 Google Scholar

Vig, J. 変圧器モデルにおける注目のマルチスケール視覚化。プレプリントは https://arxiv.org/abs/1906.05714 (2019) にあります。

記事 CAS Google Scholar

Altschul、SF et al. Gapped BLAST および PSI-BLAST: 新世代のタンパク質データベース検索プログラム。核酸研究所 25、3389–3402 (1997)。

記事 CAS Google Scholar

Zhang, B.、Li, J.、Quan, L.、Chen, Y. & Qiang, L. 簡略化された長期-短期記憶ネットワークによるタンパク質間相互作用部位の配列ベースの予測。ニューロコンピューティング 357、86–100 (2019)。

記事 Google Scholar

Tao, D.、Tang, X.、Li, X. & Wu, X. 画像検索におけるサポートベクターマシンベースの関連性フィードバックのための非対称バギングとランダムサブスペース。 IEEEトランス。パターンアナル。マッハ。知性。 28、1088–1099 (2006)。

記事 Google Scholar

ブライマン、L. 予測変数をバギングします。マッハ。学ぶ。 24、123–140 (1996)。

記事 Google Scholar

ペドレゴサ、F.ら。 Scikit-learn: Python での機械学習。 J.マッハ。学ぶ。解像度 12、2825–2830 (2011)。

Google スカラー

Spackman、KA 信号検出理論: 帰納的学習を評価するための貴重なツール (Morgan Kaufmann Publishers Inc.、1989)。

リファレンスをダウンロードする

この論文で説明されている研究は、補助金番号 62076109 および第 61972174 号に基づいて中国国立自然科学財団から実質的に支援され、補助金番号 20190103006JH に基づいて吉林省自然科学財団から資金提供を受けています。この論文で説明されている研究は、香港特別行政区の研究助成評議会 [CityU 11200218] からの助成金、および香港政府食品衛生局の保健医療研究基金からの助成金によって実質的に支援されました。香港特別行政区 [07181426]、および香港城市大学の香港データサイエンス研究所 (HKIDS) からの資金提供。この論文で説明されている研究は、香港城市大学からの 2 つの助成金 (CityU 11202219、CityU 11203520) によって部分的に支援されました。この研究は、中国国立自然科学財団の支援を受けた研究プロジェクト (助成金番号 32000464) によって実質的に後援され、香港城市大学深セン研究所によって実質的に支援されました。

これらの著者は同様に貢献しました: Zilong Hou、Yuning Yang。

中国吉林省吉林大学人工知能学部

侯紫龍 & リー・シャンタオ

情報科学技術、東北師範大学、吉林省、中国

Yuning Yang & Zhiqiang Ma

香港城市大学コンピューターサイエンス学部、香港特別行政区、中国

ウォン・カチュン

PubMed Google Scholar でこの著者を検索することもできます

ZLH、YNY、YSW、XTL が調査を設計しました。 ZLH と YNY はコンピューターコードを開発しました。 KCW と ZQM がシミュレーションを実行しました。 ZLH、YNY、YSW、XTL がデータを分析しました。 ZLH、YNY、XTL がこの論文を執筆しました。

Xiangtao Li氏への対応。

著者らは競合する利害関係を宣言していません。

Communications Biology は、この研究の査読に貢献してくれた匿名の査読者に感謝します。主な編集者: Yuedong Yang と Gene Chong。

発行者注記 Springer Nature は、発行された地図および所属機関の管轄権の主張に関して中立を保っています。

オープンアクセスこの記事はクリエイティブコモンズ表示 4.0 国際ライセンスに基づいてライセンスされており、元の著者と情報源に適切なクレジットを表示する限り、あらゆる媒体または形式での使用、共有、翻案、配布、複製が許可されます。クリエイティブコモンズライセンスへのリンクを提供し、変更が加えられたかどうかを示します。この記事内の画像またはその他のサードパーティ素材は、素材のクレジットラインに別段の記載がない限り、記事のクリエイティブコモンズライセンスに含まれています。素材が記事のクリエイティブコモンズライセンスに含まれておらず、意図した使用が法的規制で許可されていない場合、または許可されている使用を超えている場合は、著作権所有者から直接許可を得る必要があります。このライセンスのコピーを表示するには、http://creativecommons.org/licenses/by/4.0/ にアクセスしてください。

転載と許可

Hou, Z.、Yang, Y.、Ma, Z. 他説明可能なアンサンブル深層学習を介して、プロテオーム全体のタンパク質間結合部位のタンパク質言語を学習します。 Commun Biol 6、73 (2023)。 https://doi.org/10.1038/s42003-023-04462-5

引用をダウンロード

受信日: 2022 年 6 月 20 日

受理日: 2023 年 1 月 11 日

公開日: 2023 年 1 月 19 日

DOI: https://doi.org/10.1038/s42003-023-04462-5

次のリンクを共有すると、誰でもこのコンテンツを読むことができます。

申し訳ございませんが、現在この記事の共有リンクは利用できません。

Springer Nature SharedIt コンテンツ共有イニシアチブによって提供

コメントを送信すると、利用規約とコミュニティガイドラインに従うことに同意したことになります。虐待的なもの、または当社の規約やガイドラインに準拠していないものを見つけた場合は、不適切としてフラグを立ててください。