化学情報協会

ニュース

PATGENE (旧 PCTGEN) ファイル - リロード

2021年11月15日(月)

STNext

PATGENE (旧 PCTGEN) ファイルは、世界知的所有権機関 (WIPO) に電子的に提出された核酸・タンパク質の配列およびその書誌情報を収録するデータベースです。

このたび、当ファイルがリロードされ、ファイル名が PCTGEN から PATGENE に変わりました。
リロードに伴う主な変更点は以下の通りです。

BLAST ホモロジー検索関連の強化
  • 最新版の BLAST プログラム (version 2.12.0) が利用できるようになりました。
  • 従来の 3 つの検索タイプ (/SQN, /SQP, /TSQN) に加え、下記の 4 つの検索タイプが利用できるようになりました。
検索タイプ 検索機能 配列質問式 回答 検索フィールド
megaBLAST 非常に類似した (種内などの) 配列用に最適化された BLASTn 塩基配列 塩基配列 /SQM
discontiguous megaBLAST 一部の塩基を無視し (多少のミスマッチを許容し)、より離れた (種間などの) 配列を検索するために最適化された BLASTn 塩基配列 塩基配列 /SQDM
BLASTx 塩基配列の質問式をアミノ酸配列に翻訳してこれに類似したアミノ酸配列を検索 塩基配列 アミノ酸配列 /TSQP
tBLASTx 塩基配列の質問式をアミノ酸配列に翻訳してこれに類似したアミノ酸配列に翻訳された塩基配列を検索 塩基配列 塩基配列 /TSQNX
GETSIM プログラムのバージョンアップ
  • 最新版の GETSIM プログラム (version 36.3.8h) が利用できるようになりました。
  • 検索速度が大幅に改善されました。
ホモロジー検索 (BLAST, GETSIM) ワークフローの変更
  • BLAST および GETSIM ホモロジー検索時に表示される回答数とスコアのグラフが下記のように変更されました。

 

左側のグラフは横軸がスコア値、縦軸が回答数 (棒グラフがそのスコア値以上の回答の総数、面グラフは対数値) を表します。
右側のグラフは横軸がスコア値/最高スコア値(%)、縦軸が回答数 (棒グラフがそのパーセンテージ以上の回答の総数、面グラフは対数値) を表します。

  • 回答集合を作成する際に、以前はオプションを 1 度しか指定できませんでしたが、複数回指定が可能になりました。

指定できるオプションの種類に変更はありません。
 - 回答全件 (ALL と入力)
 - 入手したい回答件数(スコア値の高い順) (数字を入力)
 - 入手したいスコア値/最高スコア値の最低値 (パーセンテージを入力)

<2021 年 12 月 9 日追記>
指定できるオプションの種類が下記のように変更されました。

- 回答全件 (ALL と入力)
- 入手したいスコア値の最低値 (数字を入力)
- 入手したいスコア値/最高スコア値の最低値 (パーセンテージを入力)

<例>

:
ENTER EITHER THE NUMBER OF ANSWERS YOU WISH TO KEEP 
OR ENTER MINIMUM PERCENT OF SCORE FOLLOWED BY % 
OR ENTER "ALL" TO KEEP ALL ANSWERS OR ENTER "END". 
"END" MUST BE ENTERED TO COMPLETE THE RUN COMMAND.

ENTER (ALL) OR ? :ALL  ← 回答全件

L4    RUN STATEMENT CREATED
L4        1162 GCTCCCAGAATGCCAGAGGCTGCTCCCCCCGTGGCCCCTGCACCAGCGAC
 :

ENTER EITHER THE NUMBER OF ANSWERS YOU WISH TO KEEP 
OR ENTER MINIMUM PERCENT OF SCORE FOLLOWED BY % 
OR ENTER "ALL" TO KEEP ALL ANSWERS OR ENTER "END". 
"END" MUST BE ENTERED TO COMPLETE THE RUN COMMAND.

ENTER (ALL) OR ? :80%  ←スコア値/最高スコア値が 80% 以上の回答のみ

L5    RUN STATEMENT CREATED
L5        100 GCTCCCAGAATGCCAGAGGCTGCTCCCCCCGTGGCCCCTGCACCAGCGAC
 :

ENTER EITHER THE NUMBER OF ANSWERS YOU WISH TO KEEP 
OR ENTER MINIMUM PERCENT OF SCORE FOLLOWED BY % 
OR ENTER "ALL" TO KEEP ALL ANSWERS OR ENTER "END". 
"END" MUST BE ENTERED TO COMPLETE THE RUN COMMAND.

ENTER (ALL) OR ? :END   ← 終了する場合は END と入力
  • 回答上限数の増加および回答上限数を設定する検索パラメータの追加

BLAST, GETSIM の回答数の上限が以前は 1 万件でしたが、最大 10 万件に増加しました。

- 回答数の上限は、デフォルトでは 15,000 件です。
- "-MAXSEQ" パラメータで回答数の上限を変更できます。
- 回答数の上限を大きくするとパフォーマンスは低下します。

<入力例> 回答上限を 10 万件に変更する場合
=> RUN BLAST L1/SQN -F F -MAXSEQ 100000

完全配列検索・部分配列検索 (RUN GETSEQ) 関連の強化
  • 回答数が多い場合に以前は 25,000 件ごとに L番号が分かれて作成されていましたが、1 つの L 番号にまとまるようになりました。
  •  回答数の上限 (25 万件) に変更はありません。
ALIGNG表示形式の追加

BLAST, GETSIM ホモロジー検索および完全配列、部分配列検索についてアライメントデータを図として表示する ALIGNG 表示形式が追加されました。
表示される内容は ALIGN 表示形式と同じです。

<参考:ALIGN 表示形式での表示例>

完全配列、部分配列、ホモロジー配列検索のBATCH 検索が利用不可に
完全配列、部分配列、ホモロジー配列のアラートの登録が現時点では不可に
核酸表およびアミノ酸表の追加
  • 配列に含まれる核酸またはアミノ酸の種類と数、比率 (%) のデータが追加されました。
  • 検索フィールド

- 核酸の種類: /NA
- 核酸の数: /NA.CNT
- 核酸の比率: /NA.PER
- アミノ酸の種類: /AA (1文字コードを使用)
- アミノ酸の数: /AA.CNT
- アミノ酸の比率: /AA.PER

<例1>
グアニン (G) またはシトシン (C) が 60-100% の割合で含まれている核酸配列を検索

=> S (G OR C)/NA (S) 60-100/NA.PER

<例2>
トリプトファン (W) が 10 以上含まれているアミノ酸配列を検索

=> S W/AA (S) 10<=AA.CNT

  • 表示フィールド

- 核酸表:NA
- アミノ酸表:AA

<核酸表の表示例>

  • 核酸表およびアミノ酸表は ALL、SQIDE、SQ3IDE 定型表示形式にも含まれます。
配列キー (SEQK) フィールドの追加

SHA-2 アルゴリズムを適用し配列をコード化した情報が、配列キー (Sequence Key, DEQK) フィールドに追加されました。
配列キーは、異なるデータベースであっても、どの生物に由来する配列であっても、同じ配列であれば同一の文字列で表されます。そのため、異なるデータベースで同一の配列を簡単に検索できます。(今後 DGENE や USGENE ファイルにも収録予定)

<配列キーの例>
3df8973037e338fbecfa44ec06ff483e9430564df22300263cdbe87dbc4a03e5

新規検索フィールド

/PSL : 特許中の配列情報の記載位置
/SEQC : 特許に含まれる配列の数
/PRN : 優先権出願番号
/PRC : 優先権主張国
/PRD : 優先権主張日
/PRY : 優先権主張年
/APO : 出願番号、オリジナル
/DED : データ入力日
/DUPD : データ更新日
/PNO : 特許番号、オリジナル
/PRDF : 最先の優先権主張日
/PRYF : 最先の優先権主張年
/PRNO : 優先権出願番号、オリジナル

2021 年 12 月 13 日追記

GETSIM ホモロジー検索の相補鎖検索オプションに関する変更
  • デフォルト値の変更

リロードに伴い、GETSIM /SQN 検索時の相補鎖オプションのデフォルトが BOTH (相補鎖を含める) に変更されました。(以前は SIN (入力した配列コードのみ) でした。)

・ 相補鎖オプション指定方法の変更

相補鎖オプションは、下記のように "-S コード" で指定してください。

=> RUN GETSIM CUCGGUGCACCCUCUCAAAAGAGAGGGTGCACCGAG/SQN -S SIN ← 相補鎖オプションを SIN (入力した配列コードのみ) に変更

- コードの種類

SIN : 入力した配列コードのみ
COM : 入力した配列コードの相補鎖のみ
BOTH :入力した配列コードとその相補鎖の両方 (/SQN、/TSQN のデフォルト)