科学キュレーションの芸術

ブログ

ホームページホームページ / ブログ / 科学キュレーションの芸術

Jun 21, 2023

科学キュレーションの芸術

Alla fine di "I predatori dell'arca perduta", la misteriosa Arca dell'Alleanza,

『レイダース 失われたアーク《聖櫃》』の最後で、インディ・ジョーンズが最近回収した謎の契約の箱は、普通の木の箱に詰められ、同様の箱が無数に積み上げられた巨大な倉庫に運び込まれます。 荷車が倉庫の角を曲がったところで消えると、視聴者は箱舟を再び見つけるには何が必要なのか疑問に思うことになります。

このシーンの前提は、適切な整理が行われていないデータベースに保存されたデータ (たとえ苦労して得た貴重なデータであっても) に何が起こるかを適切に例えています。 経験豊富な科学者にとっても、初心者の科学者にとっても、情報環境をナビゲートして研究に関連するそのような「隠された」データを見つけるには、並外れた努力が必要となる場合があります。

キュレーションがうまく行われると、研究の進歩が加速され、科学プロセスの透明性が高まり、科学的知識への信頼がもたらされます。

今日のオープンサイエンス環境では、研究者が増え続ける膨大な量の情報を効率的に選別できるようにするために、データ、ソフトウェア、ドキュメント、および科学知識エコシステムのその他の要素を慎重にキュレーションすることが不可欠です。 キュレーションにより、情報に関するコンテキストと明確さが提供され、情報がより見つけやすくなり、有用になります。 厳選されたガイダンスにより、データと情報へのアクセシビリティも向上します。 キュレーションがうまく行われると、研究の進歩が加速され、科学プロセスの透明性が高まり、科学的知識への信頼がもたらされます。

ここでは、NASA 内の 2 つの使用例に焦点を当てて、科学コンテンツのキュレーションの概念と、科学データと情報の発見と使用を強化するためのその価値を探ります。

アートの世界では、キュレーションとは、コレクションまたは展示における芸術作品の選択、編成、およびプレゼンテーションを指します。 キュレーションも同様に、オンライン コンテンツまたは情報の編成を指します。 この文脈では、コンテンツキュレーションは「特定の主題を囲むデジタルコンテンツを発見、収集、提示する行為」として説明されています。 私たちは、この定義と他の定義に基づいて、科学コンテンツのキュレーションを、科学データと知識を効果的に発見、理解、使用するために必要な文脈の詳細を特定、収集、検証、合成、整理、および提示する権威ある専門家が関与するものとして定義します [例: Rotman et al .、2012]。

基本的に、科学コンテンツのキュレーションは付加価値を与える取り組みです。 これには、実用的な科学に向けた進歩を加速する、または多様な聴衆が科学情報を理解しやすくするあらゆる活動やプロセスが含まれます。 このキュレーションの範囲はデータや出版物に限定されません。これには、時間の経過とともに適切に保存されないことが多い、ソースに表示される詳細なコンテキスト情報も含まれます。 このような情報源には、従来のチャネル以外で利用できる灰色の文献(学術雑誌など)のほか、表、図、重要な情報の図表、人事リスト、信頼できる情報源からのブログ、およびその他のレビューされていないコンテンツが含まれる場合があります。

効果的な科学コンテンツのキュレーションは、特定のトピックに関する関連性のある信頼できる情報を検証および総合する主題の専門家によって指導されます。 これらの専門家は、構造化された方法論を使用して、データや情報を求める人々の調査活動を合理化します。 このプロセスは、信頼できる個人またはチームが責任を負っていることをユーザーが理解しているため、厳選されたコンテンツのユーザー間の自信と信頼を育みます。

膨大な量の情報は、誰でも、特に研究の初心者や新しい分野を探求する人を混乱させ、混乱させる可能性があります。

科学内容の継続的な拡大、技術の進歩、オープンサイエンスをますます支持する政策により、研究者はこれまで以上に多くのデータと情報を利用できるようになりました。 膨大な量の情報は、誰でも、特に研究の初心者や新しい分野を探求する人を混乱させ、混乱させる可能性があります。 残念ながら、略奪的な出版社、偽の結社、偽のカンファレンスの急増により、一見権威があるように見えても最終的には信頼性の低い資料が容易に拡散し、情報環境が複雑化しています。

毎週金曜日に、その週の最も魅力的な科学ニュース記事が受信箱に届きます。

大量のコンテンツを検索して、権威があり、本物で信頼できるデータと情報を抽出するには、多くのスキルが必要です。これは、科学の疑問に対処するための重要な第一歩です。 この取り組みは長くて骨の折れる作業になる可能性があります。 研究者は、他の重要な研究タスクから時間と注意をそらすために、他の人が以前に行った情報収集の取り組みを繰り返すことがよくあります。 データと情報に関する関連コンテキストを特定して提供するプロセスを通じて、科学コンテンツのキュレーションは、ユーザーがこの広大な状況をナビゲートするのに役立ち、初期の研究ステップを合理化することでより効率的な科学的発見を促進します。

成功した科学コンテンツのキュレーションのモデルは、科学全体に見られます。 スミソニアン天体物理天文台の天体物理データ システムや国立自然史博物館の生命百科事典が良い例です。 一方、進行中の 2 つの NASA プロジェクト、アーカイブ準軌道地球科学調査カタログ (CASEI) とサイエンス ディスカバリー エンジン (SDE) は、地球科学および宇宙科学における科学コンテンツのキュレーションのモデル ユース ケースを提供します。 これらの取り組みはそれぞれ、特定のコミュニティのニーズを満たすために開発されたものであり、実際には、さまざまな分野にわたる NASA のデータと情報の発見を促進しています。

2018 年 9 月以来、NASA の航空データ管理グループ (ADMG) は、既存の情報検索機能を向上させるために、航空および野外 (すなわち、準軌道) キャンペーンから収集された、半世紀以上にわたる NASA の地球科学観測を含む科学的に厳選された目録である CASEI を構築してきました。 。 これらの観察は、データがもともと収集した問題を解決する目的を超えて、新たな科学研究をサポートする可能性を秘めています。 しかし、データ利用者は、航空機および現場調査データは、さまざまなデータ アーカイブ プロセス、メタデータ、および複雑なデータ アーカイブ プロセスを使用して、さまざまな形式、座標系、時空間解像度で記録されるため、これらの観測結果を発見、アクセス、使用するのが難しいと報告しています。動機と状況の詳細 [Earth Science Data Systems、2018; スミスら、2020]。 さらに、航空機およびフィールドデータは、データセンターの分散ネットワーク全体に保存され、それぞれが異なる研究テーマに焦点を当て、データ管理に異なるアプローチを使用しています。 これらの要因が複合して、一貫性のない面倒な発見プロセスを生み出します。

CASEI には、ユーザーがデータベース コンテンツを簡単に参照、検索、フィルタリングできる、使いやすいアプリケーション プログラミング インターフェイスがあり、ユーザー コミュニティのニーズに基づいたメタデータ モデルに基づいています。 CASEI モデルには、NASA の地球科学データを検索するための主要なツールである NASA の Earthdata Search の背後にあるメタデータ レジストリに追加されるデータ製品に対して通常収集されるメタデータ コンテンツよりも大幅に多くのメタデータ コンテンツが含まれています。 追加の CASEI メタデータ コンテンツには、調査領域、重要なイベントの説明、垂直方向の観測領域、表面タイプ、その他の詳細が含まれており、ユーザーが完全なデータ レコードのサブセットをすばやくターゲットにしたり、複数のキャンペーンにわたる情報やデータを関連付けたりできるようになります。 たとえば、研究者が、特に沿岸地域における雲の発達に対するエアロゾルと化学種の影響を調査することに興味を持っていると想像してください。 CASEI のメタデータを使用すると、沿岸地域上でエアロゾル、化学物質、雲を対象とした観測を収集した既存のキャンペーンを簡単に識別できます。

CASEI はデータ製品をホストしたりアーカイブしたりするのではなく、NASA のさまざまなデータ センター (分散アクティブ アーカイブ センター (DAAC) と呼ばれる) に保存されているデータをユーザーに直接案内するキュレーション サービスとして機能します。 CASEI のキュレーションは、CASEI キュレーションの技術的側面について訓練を受けており、航空機および現場データの異質性と複雑性を理解している ADMG チーム メンバーによって実行されます。 キュレーションのプロセスは、査読済みの科学文献、フィールドレポート、キャンペーンイベントの概要、機器の動作表などの信頼できるデータと情報源を調べることから始まります。 このレビューは、チームメンバーがデータセットに関連する重要なコンテキストメタデータを収集、検証、合成するのに役立ちます。これにより、観察の有用性が高まり、新しい分析での適切なデータ使用を通じて将来の科学理解をサポートできます。

空挺作戦や野外作戦を組織したり参照したりする際に使用される用語は、分野や時間の経過とともに異なります。 CASEI インベントリを作成するには、キュレーターは既存のキャンペーン情報をカタログのメタデータ モデルに適合させる方法を特定する必要があります。 キュレーターは客観的なデシジョン ツリーを使用して、使用されている既存の情報を CASEI 定義およびメタデータ モデルに変換する際に一貫した決定を確実に行うことができます [Wingo and Smith, 2023]。 その後、コンテンツが CASEI データベースに公開される前に、3 人のキュレーターがすべてのメタデータを徹底的にレビューします。

長期にわたってコンテンツの正確性を維持するために、キュレーターは四半期ごとにデータベースの更新を完了します。 これらの更新には、標準化された科学キーワードへの準拠の維持、アクティブなキャンペーン用の新しいデータ製品の追加、査読済みの新しい出版物への URL の追加などが含まれます。 CASEI ユーザー インターフェイスのアップデートや追加機能も、ユーザーのフィードバックに基づいて開発されています。 たとえば、開発者は現在、固定プラットフォームの位置と移動プラットフォームの線路を含むマップの追加に取り組んでいます。

現在までに、世界中のユーザーがベータ版の CASEI インターフェイスを使用してきました。 カタログは 2023 年 7 月に正式にリリースされる予定です。

NASA の科学ミッション総局 (SMD) は、天体物理学、生物物理学、地球科学、太陽物理学、惑星科学という 5 つの広範な主題分野の研究を網羅しています。 これらのトピックにわたる多種多様なデータ、ドキュメント、画像、モデル、ツール、ソフトウェア、コードが SMD の傘下に存在しますが、それらは多数のアーカイブ、リポジトリ、Web サイトに分散しているため、データと情報の発見が課題となっています。

NASA のオープンソース サイエンス イニシアチブは、2022 年初頭から、オープンな学際的な情報の可用性、発見可能性、アクセスしやすさを向上させるという NASA の目標をサポートするために SDE を開発しました。 SDE は、SMD の 5 つのサブジェクト領域全体から厳選されたデータとリソースへの単一のアクセス ポイントを提供します。 柔軟なフィルタリング オプション (現在はプラットフォーム、機器、ミッションが含まれていますが、他の重要な概念を含むように拡張される予定です) は、組織の層を提供し、ユーザーが SDE コンテンツをより効果的に探索できるように導きます。 SDE を使用すると、銀河に関する情報を検索するユーザーは、たとえば、ハッブル宇宙望遠鏡やジェームス ウェッブ宇宙望遠鏡などの特定のプラットフォームでリソースをフィルタリングできます。

Science Discovery Engine のキュレーションには、主題の専門家とのコラボレーションが含まれており、状況に応じた知識を特定して追加します。

SDE のキュレーション プロセスには、対象分野の専門家とのコラボレーションが含まれており、関連するツール、ドキュメント、データと画像のメタデータ アーカイブ、コード リポジトリ、既存の分散した場所で利用可能なソフトウェアを特定し、それらにコンテキストに関する知識を追加します。 この作業は、情報量が膨大であり、複数のサイトでデータや情報が重複する場合があり、Web サイトがメンテナンスされず、Web リンクが壊れることがあるため、困難で時間がかかります。

SDE でのコンテンツのキュレーションは、より多くのデータとリソースが特定され組み込まれるにつれて進行中です。 さらに、SDE チームは各フィルタリング オプション内の検索語リストを厳選します。 SMD の科学トピック領域全体で既存の用語を統合する各フィルターの用語リストを作成および維持するには多大な労力が必要ですが、これらのフィルターが提供するコンテキストは新規ユーザーにとって非常に貴重です。

ベータ版の SDE は、コンテンツが追加されるにつれて定期的に成長しており、シカゴで開催された AGU Fall Meeting 2022 でリリースされ、現在、データに関する 84,000 件のメタデータ レコードを含む 700,000 件を超える検索可能なドキュメントを保持しています。

科学コンテンツのキュレーションは、時間をかけて繰り返される生きた活動として最も効果的です (図 1)。 このサイクルは、コミュニティからのニーズやユースケースを特定することから始まります。 ユースケースは、トレンド、議論のトピック、または知識のギャップを強調し、キュレーション作業の範囲を定義するために不可欠です。 たとえば、SDE の作成は、NASA のオープン サイエンス データと情報の発見を容易にし、学際的な科学を可能にするという特定のニーズによって推進されました。

ユースケースが定義されると、人間の対象分野の専門家や人工知能 (AI) 技術が適用されて、関連するデータや情報が識別され、最も関連性の高いコンテンツのみが選択されることでユーザーに価値が付加されます。 情報を効果的に整理し、注釈を付け、視覚化し、よりわかりやすい形式に蒸留することにより、このコンテンツにさらなる価値と知識が追加されます [Dale、2014]。

厳選されたコレクションは、統合検索プラットフォーム、Web ページ、オンライン学習環境、またはクラウドソーシングの科学ポータルを介してユーザー コミュニティと共有され、情報への理解とアクセスが強化されます。 コミュニティからのフィードバックによって追加のコンテンツの作成が促進され、キュレーション サイクルが再び始まります。

厳選されたコンテンツを維持することで得られる科学的価値と、そのためのコストとの間には、微妙なバランスがあります。

メンテナンスは、コレクションを最新の状態に保ち、コミュニティに価値をもたらし続けるために不可欠です。 ただし、厳選されたコンテンツを維持することで得られる科学的価値と、そのコストとの間には微妙なバランスがあります。 一方で、厳選されたコレクションは、信頼できる知識の集中源であり、認識され、評価され、奨励されるべき多大な時間と労力の投資を表します。 コレクションの寿命を確保し、コレクションを引用できるようにすることは、キュレーターの貢献を認識するのに役立ち、ユーザーに透明性と信頼を提供します。

一方で、厳選されたコレクションを無期限に維持することに関連するコストには、必要なインフラストラクチャやコレクションの最新性と関連性を維持するための追加の労力が含まれており、持続不可能になる可能性があります。 たとえば、2016 年以来、気候変動の問題に関連する連邦政府データの厳選されたコレクションである Climate Data Initiative (CDI) [Ramachandran et al., 2016] の管理者は、最小限の支援でコレクションを維持するのに苦労しています。 CDI は当初 700 以上のデータ セットを厳選していましたが、現在は 570 のみを維持しています。

厳選されたリソースを維持するかどうか、またどのくらいの期間維持するかについては、多くの疑問が生じます。 それらを保存するにはどのような約束をしなければなりませんか? 意思決定は指標のみによって行われるのでしょうか?また、そうである場合にはどのような指標が考慮されるのでしょうか? それとも、考慮すべき他の要素はありますか? そして、限られたサポートしか得られない中で、コミュニティの情報ニーズに最も効率的に応えるにはどうすればよいでしょうか?

科学コンテンツのキュレーションには、次のようなさまざまな形があります。

情報の可用性が急激に増加していること、また科学成果への透明性と公平なアクセスを改善する取り組みが高まっていることを考慮すると、あらゆる形式の科学コンテンツのキュレーションがますます重要になっています。 1 人の人間が、あるトピックに関して入手可能な膨大な量の情報を効果的に検索し、評価することはもはや不可能です。 最先端のテクノロジーが開発され、より多くの(時には十分なサービスが提供されていない)科学的取り組みに参加するコミュニティが増えるにつれて、新しいキュレーションアプローチが特定され、活用されています。 これらの新しいアプローチは、コンテンツの成長と、データや情報への迅速なオープン アクセスの需要に対応するためのキュレーション活動の拡大に役立ちます。

最近、AI、機械学習、自然言語処理 (NLP) が有望視されています。 例としては、遺伝子の注釈を改善するための NLP の使用や生物医学研究を精選するためのテキスト マイニング技術が挙げられます [Ohyanagi et al., 2015; Alex et al.、2008]。 ただし、AI が効果的であるためには、人間の専門知識と併用して AI アルゴリズムをトレーニングし、その出力を検証する必要があります。

科学コミュニティとデータ管理コミュニティは、科学コンテンツのキュレーションを優先する必要があります。これは、貢献者の努力を評価して報い、プロセスを評価し、結果を保存することを意味します。

この人間の専門知識を確実に利用できるようにすることは課題です。 科学者たちはすでに、ますます競争が激しくなり制約のある財政支援を求めて争ったり、より迅速でオープンな科学的成果を求める期待に応えたりするなど、時間に対する要求の高まりに直面している。 対象分野の専門家としてキュレーションに参加しても、既存の責任が増すだけです。 では、どうすれば科学者をこの研究に継続的に参加させることができるのでしょうか?

まず、科学コミュニティとデータ管理コミュニティは科学コンテンツのキュレーションを優先する必要があります。これは、貢献者の努力を評価して報い、プロセスを評価し、結果を保存することを意味します。 これを行うには、データ管理コミュニティは単なるデータのアーカイブを超えて、ユーザー コミュニティに強化されたサービスを提供することに重点を置く必要があります。 これには、技術者と科学者が協力して、リポジトリの運営方法とスタッフの配置方法を根本的に変えることが含まれます。 さらに、各機関は、科学コンテンツのキュレーションという重要な活動を可能にするために、科学提案における資金要請を期待する必要があります。 最後に、科学コンテンツのキュレーターの仕事をクレジットするための方法が必要です。おそらく、データセットの作成に費やされた仕事のクレジットをクレジットするためのアプローチと同様の方法です。

このような取り組みを通じて、私たちは、膨大な情報環境を理解し、情報へのより公平なアクセスを開き、世界が直面している多くの課題に対処するために必要な学際的な研究を促進するのに役立つ、よく組織され厳選された科学リポジトリの長期的な持続可能性を向上させることができます。今日。 また、苦労して手に入れた貴重なデータや情報が、レイダースの箱船のように、暗闇で塵を積んで時間の経過とともに失われてしまうことがないようにすることもできます。

アレックス、B.、他。 (2008)、自然言語処理パイプラインを使用したキュレーションの自動化、Genome Biol.、9、補足。 2、S10、https://doi.org/10.1186/gb-2008-9-s2-s10。

Dale, S. (2014)、コンテンツキュレーション: 関連性の未来、バス。 情報 Rev.、31(4)、199–205、https://doi.org/10.1177/0266382114564267。

Earth Science Data Systems (2018)、航空データ製品の管理: 課題と推奨事項、バージョン: 2018 年 2 月 27 日、NASA、ワシントン DC

大柳 洋 ほか (2015)、Plant Omics Data Center: NLP ベースのキュレーションによる種間遺伝子発現ネットワークの統合 Web リポジトリ、Plant Cell Physiol.、56(1)、e9、https://doi.org/10.1093/pcp/pcu188。

ラマチャンドラン、R.、他。 (2016)、気候データ イニシアチブ: 気候回復力をサポートするジオキュレーションの取り組み、Comput。 Geosci.、88、22–29、https://doi.org/10.1016/j.cageo.2015.12.002。

ラマスブラマニアン、M.、他。 (2020)、ES2Vec: ドメイン固有の単語埋め込みを使用した地球科学メタデータのキーワード割り当て、2020 SoutheastCon、pp. 1–6、Inst. エレクトリックの。 そしてエレクトロン。 英語、ニュージャージー州ピスカタウェイ、https://doi.org/10.1109/SoutheastCon44009.2020.9249743。

ロットマン、D.、他。 (2012)、コンテンツ キュレーション コミュニティのサポート: 生命百科事典のケース、J. Am。 社会情報科学。 Technol.、63、1,092–1,107、https://doi.org/10.1002/asi.22633。

スミス、DK、他。 (2020)、データの発見可能性とアクセスを向上させるための航空データ インベントリの構築、AMS 年次総会 2020 で発表された論文、バーチャル、Am。 メテオロール。 学会、ntrs.nasa.gov/citations/20200000477。

Wingo、SM、および D. Smith (2023)、ADMG CASEI 在庫用語の定義、NASA Earth Sci. データと情報システム。 立つ。 コーディネート。 オフ。https://doi.org/10.5067/DOC/ESCO/ESDS-RFC-047v1。

Kaylin Bugbee ([email protected])、NASA マーシャル宇宙飛行センター、アラバマ州ハンツビル。 およびアラバマ大学ハンツビル校のデボラ・スミス、ステファニー・ウィンゴ、エミリー・フォシー

引用: 2022. 著者ら。 CC BY 3.0