モデリング技術についての概要


目次
I. 配列検索について
II. ホモロジーモデリングに関する統計資料(CASP4から)
III. モデリングアルゴリズムの性能について

インシリコサイエンス社が行なうタンパク質の立体構造予測はホモロジーモデリングの手法を用いて行なっております。ホモロジーモデリングは、進化的類縁関係(ホモロジー)を持っているタンパク質どうしは構造が類似している、と言う経験的事実に基づき、構造を知りたいタンパク質(ターゲット)のアミノ酸配列をデータベースで検索を行ない、既に立体構造が実験などで決定されているタンパク質の中から配列の類似率の高いものを選出し、それを鋳型にしてモデリングを行なう方法です。

I. 配列検索について

配列検索の結果から鋳型を決定する際に参照する指標としては以下のものがあります。

A. 配列類似率(ホモロジー)

2つの配列を比較して、ターゲットのすべての残基のうち、比較するタンパク質と共通の残基を持っている割合を、配列類似率あるいは俗にホモロジーと呼びます。

配列の類似率とホモロジーモデリングの可能性についての一般的な指標は以下の通りです。

  1. 類似率40%程度以上の場合
    非常に高い精度での構造予測が可能です。
  2. 類似率25%〜40%程度
    モデリングは可能ですが、その精度には大きなバラツキが生じます。
  3. 類似率25%程度以下
    ホモロジーをもったタンパク質を検出できない場合があり、その場合にはモデリングはできません。

B. E-value(期待値)

配列の類似率が低くなってくると、アラインメントが難しくなり、機能的に重要でない部分での配列の一致が検出されることにより、実際には全く進化的類縁関係が無いにも関わらず、アルゴリズムによって検出されてしまう配列が出てきます。

検出されたタンパク質と同じ配列類似率を持っていながら、進化的には無関係なタンパク質がデータベースの中から検出されてしまう数の期待値をE-valueとして表します。

E-value=1.0 の意味は、無関係にも関わらず検出されてしまうタンパク質が1つ存在するということで、検出された物は実は無関係であると判断されます。

E-valueは小さければ小さいほど、類縁関係を見出した可能性が高くなり、一般的にはE-value=10-3が採用の限界の基準とされています。

検出された類縁タンパク質は参照タンパク質としてモデリングの鋳型として使われます。

II. ホモロジーモデリングに関する統計資料(CASP4から)

2年に1度ホモロジーモデリングの精度を競う国際コンテストCAPS (Critical Assessment of Techniques for Protein Structure Prediction)が開催されています。2000年に行なわれたこのコンテストCASP4では、43種類のタンパク質が問題として提出されましたが、これらのタンパク質に対するモデリングの結果の統計は以下の通りです。

問題タンパク質数43タンパク質
配列検索による参照タンパク質の検出率25タンパク質(58%)
参照タンパク質が検出された中で正しくフォールド[注1]が予測できたもの16タンパク質(36%)
[注1] フォールド(=タンパク質の主鎖の折り畳み)予測の成功とは、原子の位置のずれのrms(root mean square)が7Å以下のものを指しています。

以下の図はモデリングを行なったターゲットについて、参照タンパクとのアラインメントのホモロジーとE-valueをプロットしたものです。フォールドの予測が間違っているターゲットはホモロジーが30%以下に集中していることがわかります。ホモロジーが低くても、E-valueが十分に小さい (<10-50)場合には正しい予測ができています。

これらの結果を踏まえて、構造受託解析サービスでは、お客様から頂いた配列について、まず、配列検索を行ないます。PSI-BLASTなどの検索ツールによって、参照タンパク質か検出できなかった場合には構造予測はできません。また、参照タンパク質が検出された場合でも、ホモロジー、及びE-valueの値を吟味し、参照タンパク質がターゲットを有意なホモロジーを持っていないと判断した場合には、立体構造モデリングをお断りすることがあります。御了承下さい。

III. モデリングアルゴリズムの性能について

インシリコサイエンス社の構造受託解析サービスではモデリングソフトウエアとしてCASP、および、立体構造予測の全自動プログラムのコンテストである CAFASP(Critical Assessment of Fully Automated Structure Prediction)に参戦し、常にトップクラスの成績を納めているFAMSを用いてモデリングを行なっております。FAMSの精度については、2000年に行なわれたCASP4からの成績のグラフ(以下 Fig. 2及びFig.3)をご覧下さい。