化学情報協会

ニュース

USGENE ファイル - リロード

2022年2月10日(木)

STNext

USGENE ファイルは、米国の公開特許・登録特許から抽出した核酸・タンパク質の配列およびその特許情報を収録するデータベースです。

このたび、当ファイルがリロードされました。リロードに伴う主な変更点は、以下の通りです。

BLAST ホモロジー検索の強化
  • 最新版の BLAST プログラム (version 2.12.0) が利用できるようになりました。
  • 従来の 3 つの検索タイプ (/SQN, /SQP, /TSQN) に加え、下記の 4 つの検索タイプが利用できるようになりました。
    検索タイプ 検索機能 配列質問式 回答 検索フィールド
    megaBLAST 非常に類似した (種内などの) 配列用に最適化された BLASTn 塩基配列 塩基配列 /SQM
    discontiguous megaBLAST 一部の塩基を無視し (多少のミスマッチを許容し)、より離れた (種間などの) 配列を検索するために最適化された BLASTn 塩基配列 塩基配列 /SQDM
    BLASTx 塩基配列の質問式をアミノ酸配列に翻訳してこれに類似したアミノ酸配列を検索 塩基配列 アミノ酸配列     /TSQP
    tBLASTx 塩基配列の質問式をアミノ酸配列に翻訳してこれに類似したアミノ酸配列に翻訳された塩基配列を検索 塩基配列 塩基配列 /TSQNX
GETSIM ホモロジー検索の強化
  • 最新版の GETSIM プログラム (version 36.3.8h) が利用できるようになりました。
  • 最大 3 万コードの配列質問式を利用できるようになりました。
GETSIM ホモロジー検索の相補鎖検索オプションの変更
  • デフォルト値の変更

リロードに伴い、GETSIM /SQN 検索時の相補鎖オプションのデフォルトが BOTH (相補鎖を含める) に変更されました。(以前は SIN (入力した配列コードのみ) でした。)

  • 相補鎖オプションの指定方法の変更

相補鎖オプションは  下記のように "-S コード" で指定してください。

=> RUN GETSIM CUCGGUGCACCCUCUCAAAAGAGAGGGTGCACCGAG/SQN -S SIN ← 相補鎖オプションを SIN (入力した配列コードのみ) に変更

コードの種類

SIN : 入力した配列コードのみ
COM : 入力した配列コードの相補鎖のみ
BOTH :入力した配列コードとその相補鎖の両方 (/SQN、/TSQN のデフォルト)

ホモロジー検索 (BLAST, GETSIM) のワークフローの変更
  • BLAST および GETSIM ホモロジー検索時に表示される回答数とスコアのグラフが下記のように変更されました。

Highest possible score value: 547.7
Best answer score value: 547.7

8582 ANSWERS FOUND BELOW EXPECTATION VALUE OF: 10.0 USGENE

左側のグラフは横軸がスコア値、縦軸が回答数 (棒グラフがそのスコア値以上の回答の総数、面グラフは対数値) を表します。
右側のグラフは横軸がスコア値/最高スコア値(%)、縦軸が回答数 (棒グラフがそのパーセンテージ以上の回答の総数、面グラフは対数値) を表します。

  • 回答集合を作成する際に、以前はオプションを 1 度しか指定できませんでしたが、複数回指定が可能になりました。

指定できるオプションの種類は下記の 5 つです。
 - 回答全件 (ALL と入力)
 - 入手したいスコア値の最低値 (数字を入力) *
 - 入手したいスコア値パーセント (スコア値/最高スコア値) の最低値 (入力例:85% または 85% SCORE)
 - 入手したい同一性パーセント (一致コード数/Alignment コード数) の最低値 (入力例:100% IDENT) **
 - 入手したいスコア値パーセントの最低値と同一性パーセントの最低値 (入力例:85% SCORE 100% IDENT) **

* リロード前は数字を入力すると、その件数 (80 と入力するとスコア値の高い順に 80 件) の回答集合が作成されていました。
** リロードに伴い、新たに追加されました。

<例>

:
ENTER EITHER "ALL" TO KEEP ALL ANSWERS
OR ENTER THE MINIMUM SCORE VALUE YOU WISH TO KEEP OR ENTER THE MINIMUM PERCENT OF SCORE FOLLOWED BY "% SCORE"
OR ENTER THE MINIMUM PERCENT OF IDENTITY FOLLOWED BY "% IDENT"
OR COMBINE MINIMUM PERCENT OF SCORE AND IDENTITY AS "X% SCORE Y% IDENT"
OR ENTER "END". "END" MUST BE ENTERED TO COMPLETE THE RUN COMMAND.
ENTER (ALL) OR ? :ALL  ← 回答全件

L2    RUN STATEMENT CREATED
L2      8582  GCTCCCAGAATGCCAGAGGCTGCTCCCCCCGTGGCCCCTGCACCAGCGAC
 :

ENTER EITHER "ALL" TO KEEP ALL ANSWERS
OR ENTER THE MINIMUM SCORE VALUE YOU WISH TO KEEP OR ENTER THE MINIMUM PERCENT OF SCORE FOLLOWED BY "% SCORE"
OR ENTER THE MINIMUM PERCENT OF IDENTITY FOLLOWED BY "% IDENT"
OR COMBINE MINIMUM PERCENT OF SCORE AND IDENTITY AS "X% SCORE Y% IDENT"
OR ENTER "END". "END" MUST BE ENTERED TO COMPLETE THE RUN COMMAND.
ENTER (ALL) OR ? :500  ←スコア値が 500 以上の回答のみ

L3    RUN STATEMENT CREATED
L3       1041 GCTCCCAGAATGCCAGAGGCTGCTCCCCCCGTGGCCCCTGCACCAGCGAC
 :

ENTER EITHER "ALL" TO KEEP ALL ANSWERS
OR ENTER THE MINIMUM SCORE VALUE YOU WISH TO KEEP OR ENTER THE MINIMUM PERCENT OF SCORE FOLLOWED BY "% SCORE"
OR ENTER THE MINIMUM PERCENT OF IDENTITY FOLLOWED BY "% IDENT"
OR COMBINE MINIMUM PERCENT OF SCORE AND IDENTITY AS "X% SCORE Y% IDENT"
OR ENTER "END". "END" MUST BE ENTERED TO COMPLETE THE RUN COMMAND.
ENTER (ALL) OR ?:85%    ← スコア値/最高スコア値が 85% 以上の回答のみ (85% SCORE と入力してもよい)

L4    RUN STATEMENT CREATED
L4        1083 GCTCCCAGAATGCCAGAGGCTGCTCCCCCCGTGGCCCCTGCACCAGCGAC
 :

ENTER EITHER "ALL" TO KEEP ALL ANSWERS
OR ENTER THE MINIMUM SCORE VALUE YOU WISH TO KEEP OR ENTER THE MINIMUM PERCENT OF SCORE FOLLOWED BY "% SCORE"
OR ENTER THE MINIMUM PERCENT OF IDENTITY FOLLOWED BY "% IDENT"
OR COMBINE MINIMUM PERCENT OF SCORE AND IDENTITY AS "X% SCORE Y% IDENT"
OR ENTER "END". "END" MUST BE ENTERED TO COMPLETE THE RUN COMMAND.
ENTER (ALL) OR ?:100% IDENT    ← 一致コード数/Alignment コード数が 100% の回答のみ

L5    RUN STATEMENT CREATED
L5        1397 GCTCCCAGAATGCCAGAGGCTGCTCCCCCCGTGGCCCCTGCACCAGCGAC
:

ENTER EITHER "ALL" TO KEEP ALL ANSWERS
OR ENTER THE MINIMUM SCORE VALUE YOU WISH TO KEEP OR ENTER THE MINIMUM PERCENT OF SCORE FOLLOWED BY "% SCORE"
OR ENTER THE MINIMUM PERCENT OF IDENTITY FOLLOWED BY "% IDENT"
OR COMBINE MINIMUM PERCENT OF SCORE AND IDENTITY AS "X% SCORE Y% IDENT"
OR ENTER "END". "END" MUST BE ENTERED TO COMPLETE THE RUN COMMAND.
ENTER (ALL) OR ?:85% SCORE 100% IDENT  ← スコア値/最高スコア値が 85% 以上で
                                                 一致コード数/Alignment コード数が 100% の回答

L6    RUN STATEMENT CREATED
L6          20 GCTCCCAGAATGCCAGAGGCTGCTCCCCCCGTGGCCCCTGCACCAGCGAC
:

ENTER EITHER "ALL" TO KEEP ALL ANSWERS
OR ENTER THE MINIMUM SCORE VALUE YOU WISH TO KEEP OR ENTER THE MINIMUM PERCENT OF SCORE FOLLOWED BY "% SCORE"
OR ENTER THE MINIMUM PERCENT OF IDENTITY FOLLOWED BY "% IDENT"
OR COMBINE MINIMUM PERCENT OF SCORE AND IDENTITY AS "X% SCORE Y% IDENT"
OR ENTER "END". "END" MUST BE ENTERED TO COMPLETE THE RUN COMMAND.
ENTER (ALL) OR ?:END    ← 終了する場合は END と入力
  • 回答上限数の増加および回答上限数を設定する検索パラメータの追加

BLAST, GETSIM の回答数の上限が 10 万件に増加しました。(以前は 1 万件でした。)

- "-MAXSEQ" パラメータで回答数の上限を変更できます。
- 回答数の上限は、デフォルトでは 15,000 件です。

<入力例> 回答上限を 10 万件に変更する場合
=> RUN BLAST L1/SQN -F F -MAXSEQ 100000

  • BATCH 検索機能は廃止されました。
完全配列検索・部分配列検索 (RUN GETSEQ) の強化
  • 回答数が多い場合に以前は 25,000 件ごとに L番号が分かれて作成されていましたが、1 つの L 番号にまとまるようになりました。
  • 回答数の上限は 25 万件です。
  • BATCH 検索機能は廃止されました。
完全配列検索・部分配列検索に相補鎖検索オプションを追加
  • 相補鎖のオプション

核酸の完全配列、部分配列検索を行うと、デフォルトでは自動的に相補鎖が含まれます。
相補鎖を含めるかどうかはオプションで変更できます。

- SIN : 入力した配列コードのみの検索
- COM : 入力した配列コードの相補鎖のみを検索
- BOTH : 入力した配列コードとその相補鎖の両方を検索 (デフォルト)

・ 相補鎖オプションの指定方法

相補鎖オプションは  "-S コード" で指定してください。
<例>
=> FILE GENESEQ
=> RUN GETSEQ GCCCAAGCTGGCATCCGTCA/SQSN  ← デフォルトの BOTH (入力したコードと相補鎖) の検索
=> RUN GETSEQ GCCCAAGCTGGCATCCGTCA/SQSN -S SIN ← 相補鎖オプションを SIN (入力した配列コードのみ) に変更
=> RUN GETSEQ GCCCAAGCTGGCATCCGTCA/SQSN -S COM ← 相補鎖オプションを COM (入力した配列コードの相補鎖のみ) に変更

ALIGNG 表示形式の追加

アライメントを図として表示する ALIGNG 表示形式が追加されました。
表示される内容は ALIGN 表示形式と同じです。

核酸表およびアミノ酸表の追加

配列に含まれる核酸またはアミノ酸の種類と数、比率 (%) の情報が収録され、以下のフィールドで検索・表示できるようになりました。

  • 検索フィールド

- 核酸の種類: /NA
- 核酸の数: /NA.CNT
- 核酸の比率: /NA.PER
- アミノ酸の種類: /AA  (1文字コードを使用)
- アミノ酸の数: /AA.CNT
- アミノ酸の比率: /AA.PER

  • 表示フィールド

- 核酸表: NA
- アミノ酸表: AA

核酸表およびアミノ酸表は以下の定型表示形式にも含まれます。

ALL、SQIDE、SQ3IDE

配列キー (SEQK) フィールドの追加

SHA-2 アルゴリズムを適用し、配列をコード化した情報が、配列キー (Sequence Key, SEQK) フィールドに追加されました。
配列キーは、異なるデータベースであっても、どの生物に由来する配列であっても、同じ配列であれば同一の文字列で表されます。そのため、異なるデータベースで同一の配列を簡単に検索できます。

<配列キーの例>
3df8973037e338fbecfa44ec06ff483e9430564df22300263cdbe87dbc4a03e5

新規検索フィールド

/APO : 出願番号、オリジナル
/DED : データ入力日
/DUPD : データ更新日
/INA : 発明者住所
/PAA : 特許出願人住所
/PNO : 特許番号、オリジナル
/PRDF : 最先の優先権主張日
/PRYF : 最先の優先権主張年
/PRNO : 優先権出願番号、オリジナル
/RLPC : 関連出願の特許発行国
/RLPD : 関連出願の特許発行日
/RLPN : 関連出願の特許番号
/RLPY : 関連出願の特許発行年
/RLT : 関連出願のタイプ

アラートの一時停止について

当面の間、配列質問式を用いたアラートの登録はできませんが何卒ご了承ください。