化学情報協会

ニュース

GENESEQ, USGENE, PATGENE ファイル - ALIGNC 表示形式の追加、ALIGN 表示形式のコンパクト化

2024年12月12日(木)

STNext

GENESEQ ファイルは、世界の特許から抽出した核酸・タンパク質の配列およびその書誌情報を収録するデータベースです。
USGENE ファイルは、米国の公開特許・登録特許から抽出した核酸・タンパク質の配列およびその書誌情報を収録するデータベースです。
PATGENE ファイルは、世界知的所有権機関 (WIPO) に電子的に提出された核酸・タンパク質の配列およびその書誌情報を収録するデータベースです。

このたび、これらのデータベースにおいて下記の強化が行われました。

ALIGNC 表示形式の追加

新たに ALIGNC 表示形式が追加され、ホモロジー検索 (BLAST, GETSIM) と完全配列検索 / 部分配列検索の回答を掛け合わせた際、ヒット情報をまとめて表示できるようになりました。ホモロジー検索でヒットした長い配列中に特定の短い配列が含まれているかどうかを確認でき、CDR や抗体の検索の際に便利です。

例  1
 
=> FILE GENESEQ
=> RUN BLAST L1/SQP -F F ← ホモロジー検索を実行
L2      14920 MNPLLILTFVAAALAAPFDDDDKIVGGYNCEENSVPYQVSLNSGYHFCGG
        :
=> RUN GETSEQ ARVST/SQSP ← 部分配列検索を実行
L3       7880 ARVST/SQSP

=> S L2 AND L3            ← 上記の検索 2 つを AND 演算
L4        351 L2 AND L3

=> D ALIGNC               ← ALIGNC 表示形式で表示

L4     ANSWER 1 OF 351 GENESEQ COPYRIGHT 2024 CLARIVATE on STN.
ALIGN
  ALIGNMENT FROM L-NUMBER L2
  Query Length: 247; Sequence Length: 499;
  Score: 451.4 bits (1160), 87.9% of highest possible score 513.8;
  Expect value: 3.05e-125;
  Identities: 214 / 247 (86.6%); Positives: 231 / 247 (93.5%);
  Query Identity: 86.6%; Query Coverage: 100.0%;
  Subject Identity: 42.9%; Subject Coverage: 49.5%;
  Alignment Length: 247;
  Q:   1 MNPLLILTFVAAALAAPFDDDDKIVGGYNCEENSVPYQVSLNSGYHFCGGSLINEQWVVS 60
         ||| ||| || ||+| |||||||||||| |||||+||||||||| ||||||||+||||||
  S:  16 MNPFLILAFVGAAVAVPFDDDDKIVGGYTCEENSLPYQVSLNSGSHFCGGSLISEQWVVS 75
 
  Q:  61 AGHCYKSRIQVRLGEHNIEVLEGNEQFINAAKIIRHPQYDRKTLNNDIMLIKLSSRAVIN 120
         | ||||+|||||||||||+||||||||||||||||||+|+| ||+|||||||||| ||||
  S:  76 AAHCYKTRIQVRLGEHNIKVLEGNEQFINAAKIIRHPKYNRDTLDNDIMLIKLSSPAVIN 135
 
  Q: 121 ARVSTISLPTAPPATGTKCLISGWGNTASSGADYPDELQCLDAPVLSQAKCEASYPGKIT 180
         |||||||||||||| ||+||||||||| | ||||||||+|||||||+||+|+||||||||   ← ホモロジー検索のヒット情報
  L3     =====                                                           ← 部分配列検索のヒット情報
  S: 136 ARVSTISLPTAPPAAGTECLISGWGNTLSFGADYPDELKCLDAPVLTQAECKASYPGKIT 195
 
  Q: 181 SNMFCVGFLEGGKDSCQGDSGGPVVCNGQLQGVVSWGDGCAQKNKPGVYTKVYNYVKWIK 240
         ++||||||||||||||| ||||||||||||||||||| ||| ||+||||||||||| |||
  S: 196 NSMFCVGFLEGGKDSCQRDSGGPVVCNGQLQGVVSWGHGCAWKNRPGVYTKVYNYVDWIK 255
 
  Q: 241 NTIAANS                                                      247
         +||||||
  S: 256 DTIAANS                                                      262

例 2

部分配列検索による検索結果は複数組み合わせることが可能です。
 

=> RUN GETSEQ SYIMM/SQSP                ← 部分配列検索を実行 1
L1        1140 SYIMM/SQSP

=> RUN GETSEQ IKLGTVTTV[DEN]Y/SQSP      ← 部分配列検索を実行 2
L2        1225 IKLGTVTTV[DEN]Y/SQSP

=> RUN GETSEQ SIYPSGGITFYAD..../SQSP    ← 部分配列検索を実行 3
L3        1209 SIYPSGGITFYAD..../SQSP

=> S L1 AND L2 AND L3                   ← 3 つの検索を AND 演算
L4         896 L1 AND L2 AND L3

=> RUN BLAST L5/SQP -F F                ← ホモロジー検索を実行
L6       14993 EVQLLESGGGLVQPGGSLRLSCAASGFTFSSYIMMWVRQAPGKGLEWVSS
        :

=> S L4 AND L6                          ← 部分配列検索、ホモロジー検索の回答を AND 演算
L7        549 L4 AND L6

=> D ALIGNC

L7    ANSWER 1 OF 549 GENESEQ COPYRIGHT 2024 CLARIVATE on STN.
ALIGN
  ALIGNMENT FROM L-NUMBER L6
  Query Length: 1232; Sequence Length: 450;
  Score: 917.5 bits (2370), 36.3% of highest possible score 2525.3;
  Expect value: 1.033e-264;
  Identities: 445 / 450 (98.9%); Positives: 448 / 450 (99.6%);
  Query Identity: 36.1%; Query Coverage: 36.5%;
  Subject Identity: 98.9%; Subject Coverage: 100.0%;
  Alignment Length: 450;
  Q:   1 EVQLLESGGGLVQPGGSLRLSCAASGFTFSSYIMMWVRQAPGKGLEWVSSIYPSGGITFY 60
         ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||    ← ホモロジー検索のヒット情報
  L1                                   =====                             ← 部分配列検索のヒット情報 (L1)
  L3                                                      ===========   ← 部分配列検索のヒット情報 (L3)
  S:   1 EVQLLESGGGLVQPGGSLRLSCAASGFTFSSYIMMWVRQAPGKGLEWVSSIYPSGGITFY 60
 
  Q:  61 ADTVKGRFTISRDNSKNTLYLQMNSLRAEDTAVYYCARIKLGTVTTVDYWGQGTLVTVSS 120
         ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
  L2                                           ===========               ← 部分配列検索のヒット情報 (L2)
  L3     ======                                                         
  S:  61 ADTVKGRFTISRDNSKNTLYLQMNSLRAEDTAVYYCARIKLGTVTTVDYWGQGTLVTVSS 120
 
  Q: 121 ASTKGPSVFPLAPSSKSTSGGTAALGCLVKDYFPEPVTVSWNSGALTSGVHTFPAVLQSS 180
         ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
  S: 121 ASTKGPSVFPLAPSSKSTSGGTAALGCLVKDYFPEPVTVSWNSGALTSGVHTFPAVLQSS 180
 
    :(省略)
コマンドの検索結果における ALIGN 表示形式のコンパクト化

完全配列検索および部分配列検索で利用する RUN GETSEQ コマンドの検索結果において、ALIGN 表示形式で表示される配列がヒットしたコードとその前後のみとなりました。
これにより、処理速度が向上し、素早く結果を表示できるようになりました。
 

=> FILE GENESEQ
=> RUN GETSEQ (CGCATACGC)/SQSN
L1      53794 (CGCATACGC)/SQSN

=> D ALIGN

L1    ANSWER 1 OF 53794 GENESEQ COPYRIGHT 2024 CLARIVATE on STN.
ALIGN
  Sequence Length: 2529;
  Strand: Plus / Plus;
  Hits at: 1260-1268
     1141 TGGAAAACCT TGGAAAAGCG CACTGATCTG ATCTTGGTGA AAGACGCGGC ACCAGTCACG
     1201 CTGGACGTTT ACCGTAGCGT TCACGGTCTG ATTGTTAAGT TCGATGATGC GCAGCACGTC
                                                                          =  ← ヒットしたコードとその前後を表示
     1261 GCATACGCAA AGGCCCGTGC ATGGGAAGGC TACGAGCTGC AGTCCCTGAT GGCCTGGACC
          ========                                                        
     1321 CGTAAAACCC AGAGCGCGAA TTGGGAGCAA TGGAAAGCGC AAGCAGCTCG CCACGCACTG
     1381 ACGATTAATT GGTATTATGC AGACGACCGC GGCAACATTG GCTATGCGCA CACCGGCTTT