英語のWeb版はここをクリックしてください   日本語のWeb版はここをクリックしてください

newsletter banner

2016年11月号

Mascot検索はいくつかの処理プロセスを経ながら進行しますが、それらの処理時間はディスクやプロセッサの性能に影響されます。Mascot Server用PCのデバイス構成を検討する際の参考になると思いますので、すこし詳しくご説明します。

Mascotを利用した研究論文を紹介しています。取り上げてほしい話題や研究論文かありましたらぜひご紹介ください。また、 Mascotニューズレターの内容に関してお気づきの点やご質問などありましたらご連絡ください。

今月の小技では、配列が長いエントリを含む配列データベースをセットアップした際に出力される Warning の解消法についてご説明します。

Mascotニューズレターのバックナンバーは このページ からご覧いただけます。日本語版は「Japanese」リンクをクリックしてください。

 

今月のトピックス

Mascot Server用PCのデバイス構成
Mascotを利用した論文の紹介
今月の小技
 

Mascot Server用PCのデバイス構成

Mascot検索は次のような処理プロセスで構成されています。

  1. 入力ファイルのアップロード
  2. 入力ファイルの再構築(ペプチドを質量順に並べ替えます)
  3. 入力ファイルの分割(初期設定では1000個のスペクトルに小分けします)
  4. 検索(in silico での配列データベースの消化および開裂、質量の理論値と実験値の比較、スコア計算など)
  5. 検索結果ファイルの作成
  6. Percolatorによる同定結果の改善計算
  7. 検索結果を高速表示させるためのキャッシュファイルの作成

検索処理の中心は、質量の理論値と実験値の比較およびスコア計算になりますが、この処理は集団検診における体重測定に似ており、体重計の数が多ければ測定が早く終了するように、検索速度はプロセッサの数(コアの数)に比例して速くなり、コア数が倍になれば検索時間は半分になります。

ペプチドの並び替えや小分け、検索結果ファイルの作成、Percolator計算などは現状ではシングルコアでの処理になりますので、処理速度はコアの性能に比例します。

詳しくは ブログ をご覧ください。メモリの搭載量やSSD装着のメリットに関する説明もありますので、Mascot Server用PCの構成デバイスを選択する際の参考にしてください。

processor graphic

Mascotを利用した論文の紹介

Mascotニューズレターで取り上げてほしい話題や研究論文がありましたらぜひご紹介ください。また、Mascotニューズレターの内容に関してお気づきの点やご質問などありましたらご連絡ください。

 

A large fraction of HLA class I ligands are proteasome-generated spliced peptides

Juliane Liepe, Fabio Marino, John Sidney, Anita Jeko, Daniel E. Bunting, Alessandro Sette, Peter M. Kloetzel, Michael P. H. Stumpf, Albert J. R. Heck, Michele Mishto

Science 21 Oct 2016: Vol. 354, pp. 354-358

To identify the presence of pathogens and other maladies, the cells present protein fragments (epitopes) on their surface for targeting by the immune system. These epitopes are created by the action of the proteasome, and then they are displayed by the human leukocyte antigen class 1 (HLA-1) system. The proteasome can also cut proteins and paste different pieces together, forming peptides that do not correspond to the original protein sequences. This process is called proteasome catalyzed peptide splicing and was thought to be rather rare.

In this study, the authors developed a two-dimensional peptide prefractionation strategy followed by a hybrid peptide fragmentation method (electron transfer higher-energy collision dissociation) for peptide identification. The database search employed an adapted target-decoy approach and a vast proteome-wide human spliced peptide database.

This methodology led to the identification of 6592 nonspliced and 3417 spliced peptides 9 to 12 residues in length, which represents 34% of the total of identified antigenic peptides. In contrast, searching these data sets only against the standard Swissprot human proteome database wrongly assigned 655 of the antigenic peptides as nonspliced peptides, while not accounting for the spliced peptides.

Thumbnail from featured publication

今月の小技

配列データベースを新規に追加し、無事に「In use」になったところで検索を行うと、検索結果ページの始めの方に次のような赤文字のWarningメッセージが表示されることがあります。

「3 sequences ignored because length greater than maximum configured」

Mascotの初期設定では、配列データベースを構成するエントリの最大残基数は50000以下に制限しており、この数値条件を超えるエントリが存在する場合は、「Database Status」ページの当該配列データベースブロックに「Compression warning」のリンクを追加します。なお、「Statistics」リンクのページでも「Number of sequences too long」と「Length of longest sequence」の情報が記載されています。

最大残基数50000の設定は、「mascot.dat」設定ファイルの「Options」セクションにある「MaxSequenceLen」の値です。デフォルト値の50000の数値は、NCBInrの中で最も長いタンパク質が 41965残基 であることに由来していますので、この Warning が出力されるのはアセンブルされたゲノムや染色体などの塩基配列データベースを追加するときだと思います。たとえば「human chomosome 1」の長さは250Mbありますので、これをひとつのエントリで構成された配列データベースとして登録すると上記の Warning が出力されます。

非常に長いエントリをひとつだけ持つ配列データベースを検索することは、検索結果表示(すなわち同定)の観点ではナンセンスです。また、Mascotは「MaxSequenceLen」の値を使ってメモリ上にエントリ格納表を作りますので、この値を無闇に大きくするとすぐにメモリが一杯になり、「Out of memory」で検索が異常終了(crash)します。長い配列の場合は「のりしろ」を残した状態で適当な長さに区切って複数のエントリに分けて、それを配列データベースとして登録するのが良いと思います。Mascotヘルプページの「Genome Database Example」をご覧ください。

Statistics file

お問い合せ

マトリックスサイエンス株式会社

〒101-0021 東京都千代田区外神田6-10-12 KNビル3F

info-jp@matrixscience.com

電話:03-5807-7895

ファクシミリ:03-5807-7896

 

Matrix Science logo

Matrix Science Ltd, 64 Baker Street, London W1U 7GB, UK
T +44 (0)20 7486 1050  F +44 (0)20 7224 1344  E info@matrixscience.com
 

View in a web browser Forward to a colleague Unsubscribe