タイムラグを知ろう
コラムでは、CAS SciFinder のユーザーの方を対象に、検索に関するお役立ち情報や、ちょっとした豆知識を提供します。本稿では CAS SciFinder に情報が収録される際のタイムラグについてご紹介します。
収録データの変遷を意識して検索する
ちょっと待って!タイムラグを意識して検索していますか?
タイムラグとは、一般的には「時間のずれ」や「遅延」のことを言いますが、情報の世界では「その情報を誰でも知ることができる状態になるまでにかかる時間」のことを指します。
CAS SciFinder のデータ製作者である CAS が雑誌論文や特許などの情報を入手し、そこからさまざまな情報を抽出してデータベースに収録し、最終的にわたしたちが検索できる状態になるまでには、数日~数カ月かかります。
この「数日~数カ月」がタイムラグというわけですが、実際にどのぐらいかかるかご存知でしょうか?
実はタイムラグによって起こっているデータの変化を知ると、CAS SciFinder をより効率よく検索できるようになります。
CAS SciFinder の最新レコードは 「完成品」じゃない!?
CAS SciFinder の文献情報の大部分を占める CAplus の最新レコードは 「完成品」ではありません。つまり「作成途中」のレコード、それこそが CAplus の最新レコードを把握する上で大切なポイントです。
料理に例えて考えてみましょう。完成品が「カレーライス」だとしたら、次のような様々な段階を経ます。
- 最初の段階:切った人参、タマネギ、ジャガイモ
- 次の段階:野菜や肉を炒めたもの
- 次の次の段階:炒めた野菜や肉に水を入れて煮込んだもの
- 最終段階:カレールーを加えて、煮込んだカレースープ
- 完成:お皿にご飯とカレーを盛りつけたカレーライス
CAS SciFinder の文献レコードも同じ。レコードは次のような段階を経て、順次作成されます。
- 最初の段階:文献のタイトルや著者名、発行年などの書誌情報
- 次の段階:抄録を追加
- 次の次の段階:化学物質や概念キーワードの索引情報を (徐々に) 追加
- 完成:書誌情報、抄録、索引が完成したレコード
そんなこと当然、と思われましたか?
もちろん、レコードを表示してみれば、「ああ、索引情報が収録されていないな」とか「抄録がないレコードだな」と分かりますが、検索する時点では、とあるレコード中にどのような情報がどの程度収録されているのかは誰にも分かりません。
したがって、新しい情報が必要になって調査をするときは、未完成/作成している途中のレコードが相当数存在する可能性があり、それこそが自分が求めている情報かもしれなかった場合を想像して検索することが大切です。
あなたが見たとき、それはまだ「カレーライス」になっておらず、「肉野菜炒め」の段階かもしれないのですから。
要注意!タイムラグのリスクが高いのは化学物質関連の文献調査
タイムラグによって検索漏れのリスクが高くなるのは、何と言っても化学物質関連の調査です。理由はもう明白ですね。
- 最初の段階:文献のタイトルや著者名、発行年などの書誌情報
- 次の段階:抄録
- 次の次の段階:化学物質や概念キーワードの索引情報を追加途中のレコード
- 完成:書誌情報、抄録、索引が完成したレコード
そう。書誌情報を入力し、次に抄録を作成し、最後の段階で化学物質の情報を追加するためです。
主要国特許でも、化学物質の情報が収録されるのは、上の1でレコードが作成されてから 27 日後がメド。
ですから、約 1 ヶ月~1.5 ヵ月程度は、レコードが CAS SciFinder に存在するのに、Substances 検索から Reference 検索を行っても(化学物質情報が未収録なため)探せない状態だと想定して検索をするのがおすすめです。
では、具体的な事例を見てみましょう。レコード番号 2023:1233661 の 2023 年 7 月 11 日時点の表示は下図の通りです。
つまり、Concepts (概念語:キーワード) も Substances (化学物質) も未収録です。ですから、例えば Substance 検索で 74-82-8 (メタン) を検索し、その Reference を検索しても、(2023 年 7 月 11 日時点では) レコード番号 2023:1233661 は回答として得られないのです。(ヒットしません:下図参照)
資料種類別のタイムラグを知ろう
実は、タイムラグは収録する資料の種類によって異なります。そこで次に収録源の資料種類別のタイムラグを説明します。
主要な学術雑誌 (注1)
CAS SciFinder のデータベースを製作している CAS (シーエーエス) のルールによれば、主要雑誌については 「CAS がその雑誌を入手してから 1 週間以内に書誌情報を収録する」と決まっています。
主要雑誌のリスト (注2) は https://www.cas.org/support/documentation/references/corejournals のサイト上で確認できます。
抄録・索引情報を作成する対象となった記事については、その後抄録や化学物質、概念語の索引情報が追加され、レコードが完成します。
学術論文の場合の書誌情報は、次のようなデータです。
- レコード番号
- 標題
- 著者名
- 著者の所属機関
- 資料種類
- 収録源
- 言語
書誌情報のみのレコード (下図参照) には、タイトル (標題) しかキーワードがありません。つまり、キーワード検索を行うと、検索対象のフィールドを「Title」にした限定検索を行った場合と同じ結果になります。
このような最新のレコードをヒットしたい場合は、レアでニッチなキーワードで検索するのではなく、出現頻度の高そうなワードや言い換えた表現も含めて検索してください。
主要国特許 (注3)
CAS SciFinder のデータベースを製作している CAS (シーエーエス) のルールによれば、主要国特許については 「特許発行日から 2 日以内に書誌情報を収録する」 と決まっています。
特許主要国はカナダ (CA)、ドイツ (DE)、欧州特許 (EP)、フランス (FR)、イギリス (GB)、日本 (JP)、ロシア(RU)、米国 (US)、 PCT 出願 (WO) です。
対象の特許分類が付与されている特許については、その後抄録・索引情報が発行日から 27 日以内に追加されます。また、特許レコードの場合は、レコード完成後も対応特許の番号類が継続的に追加されます。2022 年にベーシック特許が発行され、CAS SciFinder に収録された特許のうち、約 75% が主要国特許です。
発行後すぐに抄録が収録されているレコードもありますが、それらの抄録は CAS のスタッフが作成した抄録ではなく、著者抄録です。著者抄録の機械翻訳を採用している場合は、抄録中に [Machine Translation of Descriptors]と表示されます。
その他の収録源
ここまでで述べた主要雑誌、主要国特許以外の収録源、例えば
- 主要雑誌以外の学術雑誌の記事
- 主要国 (カナダ、ドイツ、欧州特許、フランス、イギリス、日本 、ロシア、米国、 PCT 出願) 以外の特許
- 総説
- 学会会議録
- 単行本
- 学位論文
については、ルール上、何日以内に収録するという決まりはありません。
しかし、CAS の規定では、これらの資料種類から作成する索引情報は僅かですから、原報を入手した後は比較的スムーズに収録されていると予想されます。
参考:Reference 以外のタイムラグ
ここまで読んでいただいた方の中には、もしかしたら
- 化学物質が Substances 検索できるようになるまでのタイムラグ
- 反応情報が Reactions 検索できるようになるまでのタイムラグ
- マルクーシュ構造が Patent Markush で検索できるようになるまでのタイムラグ
も気になってきた方がおられるかもしれません。
CAS が公開しているデータはありませんが、実際に検索してみると、データの収録源である文献情報が Reference に収録されてから、Substances は約 25 日後、Reactions は約 60 日後、Patent Markush は約 50 日後程度で収録されていました。最新情報を入手したいと思って、それぞれの検索タイプを用いる場合は、このぐらいタイムラグがあることを想定してください。
(2023 年 7 月時点、いずれも 2023 年 1 月 19 日に CAplus に収録された文献を対象に、各データの 80 % のレコードが収録された日数でタイムラグを算出しています。)
まとめ
ここまで、CAS SciFinder (サイファインダー・エヌ) の文献データである References (CAplus) のタイムラグについて説明しました。
まとめると、次のようになります。
-
最新のレコードは作りかけ=未完成の状態でも収録されている
-
主要国特許の書誌情報は発行後 2 日以内、抄録・索引は 27 日以内に完成する
-
主要雑誌の書誌情報は CAS が入手後 7 日以内に収録される、抄録・索引が完成する時期に決まりはない
結論:CAS SciFinder で最新の文献を調べたい時は、「書誌情報 (+著者抄録) のみ」のレコードを想定的した検索式を使う
著者名や雑誌名での検索ではタイムラグを意識する必要はありません。タイムラグが大きく関わるのは、次のような場合です。
-
Substances 検索から検索をスタートして、特定の物質に関連した文献を探しているとき
-
Reference 検索で標題中に含まれない (含まれる可能性が低い) レアなキーワードで検索するとき
このような場合は、製作の過程にある最新のレコードがヒットしない可能性が高いことを知っておいてください。場合によっては、Substances 検索ではなく Reference 検索画面で直接キーワード検索を行う、出現頻度の高そうなキーワードや表記ゆれを考えて複数のキーワード検索を併用する、といった補完を考えて、柔軟に検索してみましょう。
最新情報の入手にはアラートを使う!
ある時点では化学物質の情報がまだ作られていなかったり、抄録が追加されなかったりで、ヒットしなかったレコードも、次の日、3日後、来週 .... と時間が経てば、様々な追加情報が入り、同じ検索式でも回答に含まれるようになるかもしれません。
しかし、毎日/定期的に同じ検索を手動で実行するのは手間がかかりますので、最新情報を入手したいテーマがある場合は、アラートを設定しておくのが有効です。
アラートは、設定する検索条件を一通り実行した後で、画面右上の 「Save and Alert」ボタン (下図で赤枠で示したボタン) を押して設定します。Alert Frequency が、回答入手頻度に相当しますので、いち早く最新情報を入手したい場合は「As Available」 を選びましょう。
参考文献と参考サイト
注1) 化学情報協会, 2019, ”CA 文献検索”, 化学情報協会ホームページ (2023年7月11日取得, https://www.jaici.or.jp/application/files/8116/6269/1595/text_ca.pdf)
注2) CAS, 2023, ”CAplus Core Journal Coverage List”, CAS:A division of the American Chemical Society, (2023年7月11日取得, https://www.cas.org/support/documentation/references/corejournals)
注3) CAS, 2023, ”CAS Coverage of Patents”, CAS:A division of the American Chemical Society, (2023年7月11日取得, https://www.cas.org/support/documentation/references/patentcoverage)
・ ・ ・ ・ ・ ・
掲載日 2023 年 7 月 11 日