スピンオフを理解すると Markush 検索がわかる
コラムでは、CAS SciFinder のユーザーの方を対象に、検索に関するお役立ち情報や、ちょっとした豆知識を提供しています。今回はマルクーシュ構造検索のしくみについて解説します。
マルクーシュ構造検索とは
マルクーシュ構造は類似した構造をもつ化合物をまとめて表現する化学物質の表記手法のことです。以前のコラムにも記載しましたので、こちらの記事をご覧ください。
一般的なマルクーシュ構造
マルクーシュ構造検索の流れ
CAS SciFinder や CAS STNext では、構造図を描いて、検索を実行すると、下図のような流れでデータベース内の情報と作図した構造図 (構造検索式) との比較が開始されます。
スクリーン検索
マルクーシュ構造検索では、初めにスクリーン検索が実行されます。スクリーン検索とは、回答候補をざっくり集めるための検索で、最終回答がここで得られるわけではありません。
具体的には SpMCN (Specific Atom multiple connectivity node) と GnMCN (generic group multiple connectivity node) の構造的な特徴や属性を蓄積したデータと、検索者自身が作図した構造から同じように発生させたデータとを比較する作業が行われます。
マルクーシュ構造から導きだされる SpMCN と SpMCN から導きだされる GnMCN
データベース内では、SpMCN と GnMCN の両方をまとめたデータ (CpMCN:composite multiple connectivity node) が保有されています。このことによって、マルクーシュ構造を一般式グループでも原子でも検索可能なデータに変換でき、どのような構造を使って検索した場合でも、柔軟に検索できるしくみを実現しているのです。
CpMCN (SpMCN と GnMCN をまとめた表現)
Group-by-Group 検索と属性検索
スクリーン検索で得られた候補化合物の集合を対象に、Group-by-Group 検索が実行されます。
これは検索式から発生したCpMCN が、データベース中の構造から変換した GnMCN の条件に合致するかどうかを調べる検索でです。
GnMCN の一般式グループのデータ内には属性情報も含まれているため、この時に環の大きさや結合の種類などの条件についても比較が行われます。
Atom-by-Atom 検索
最後に Atom-by-Atom 検索が実行されます。Atom-by-Atom 検索では、作図した構造図から生じた CpMCNが、データベース中の SpMCN の条件に含まれるかどうかを調べることで、一般式ではなく原子レベルで化合物をとらえたときに、回答に矛盾がないかの確認が行われます。
この時、構造図 (構造検索式) とデータベース内の SpMCN 同士を単に比較するのではなく、関連する GnMCNを発生(スピンオフ)させて併用することでミスマッチを防いでいます。
スピンオフ (代替ノードの生成)
スピンオフは、CAS SciFinder や CAS STNext におけるマルクーシュ構造検索を理解する上で非常に特徴的な処理なので、ここであらためて解説します。
下の図で考えてみましょう。検索式の構造図のベンゼン環を原子で捉えると C6 (炭素6個)です。つまり、このままではデータベース中の Cb' (炭素環)とは一致しません。同じく、検索式中の Ak' (炭素鎖) は、データベース中の CH2-CH2 と一致しません。
このような問題に対応するために、マルクーシュ構造検索では、原子のグループに対して上位の一般式グループを含むように代替ノードを生成して構造比較を行います。この代替ノードの生成が「スピンオフ」です。
つまり、化学者であれば当然知っている「化学物質特有の暗黙知」を解決するためにシステムがとる手法が「スピンオフ一般式グループ」と言えます。
作図した構造からもデータベース中の構造からもスピンオフする
スピンオフは、検索式からもデータベース中の構造からも生成されます。
上図では、Ib の点線で囲ったエリア (Cb と Hc) が検索式 Ia のスピンオフ、IIb の点線で囲ったエリア (Ak と Hc) がデータベース中のレコード IIa のスピンオフです。
つまり、検索式のベンゼン環をスピンオフすると Cb となり、これによってデータベース中の Cb' と一致するようになります。
同様に検索式中の Ak' は、データベース中のレコードからスピンオフした Ak と一致します。
スピンオフ同士は比較しない
化学者であれば当然知っている「化学物質特有の暗黙知」。それを検索システム上で解決するための手法がスピンオフですが、誤ったマッチングを防ぐために、スピンオフ同士は比較されません。
スピンオフを知っていればこそ、時に間違えやすいポイントですので、あらためて説明します。
例えば、下図の IIIa を作図したとします。その場合のスピンオフ一般式は IIIb です。
一方、データベース中には IIa や IVa といった化合物が収録されていたとします。いずれも、スピンオフ構造は IIb です。
このようなケースでは、IIIb と IIb はまったく同一です。
したがって、スピンオフした構造同士 (IIIb と IIb) を比較して回答を出すのであれば、 IIa もIVa も回答として得られます。
しかし、IIIa (-CH2-) が構造検索の対象ですから、-CH2-CH2- と炭素鎖が伸びる IIa は回答として得られるべきではない物質です。
このようなケースに対応するため、システムは一般式グループが「本来の一般式グループ」であるか「スピンオフした一般式グループ」であるかを識別し、構造検索式中のスピンオフした一般式グループと、データベース中の構造からスピンオフした一般式グループを比較しないようにすることで、誤ったマッチングを防いでいるのです。
まとめ
CASでは専門的な知識を持ったアナリストが化学的常識である暗黙知を踏まえて、特許中のマルクーシュ構造を収録しています。つまり CAS のデータベースにおけるマルクーシュ構造検索の価値を裏付けしているのは、マルクーシュ構造で表記された特許中の化合物を漏れなく収録しているデータベースの「正確度」です。
マルクーシュ構造検索では、スクリーンとスピンオフ技術により、効率的に特許明細書中の化学物質を構造で検索することができます。
-
化学物質特有の暗黙知を検索システム上で解決するための手法がスピンオフ
-
検索式から発生したスピンオフ一般式グループは、ファイル中の本来の一般式グループのみが比較対象となる。
CAS SciFinder でのマルクーシュ構造検索の操作や、CAS STNext のマルクーシュ構造検索の違いについては以下の資料をご覧ください。
CAS STNext と CAS SciFinder のマルクーシュ構造検索の違い
・ ・ ・ ・ ・ ・
掲載日 2024 年 8 月 20 日