NIH助成研究から生じるデータの発見とアクセス改善における問題点:予備調査(調査報告書)

2015年08月18日

北米・中南米

PLOS ONE掲載の調査報告書“Sizing the Problem of Improving Discovery and Access to NIH-Funded Data:A Preliminary Study(試訳:NIH助成研究から生じるデータの発見とアクセス改善における問題点:予備調査、PDF:18ページ)”を紹介する。

抄録

目的

本論文は、米国立衛生研究所 (National Institutes of Health, NIH)助成研究から生じるデータセットの概算数と種類を推定することにより、生物医学のデータセットの発見とアクセスを改善する情報を提供することを目的とする。

方法

PubMedで引用があり、Pub Med Central(PMC)に掲載された、2011年に雑誌で出版されたNIH助成論文を分析し、論文中のデータが既存のリポジトリに収録されているかを特定した。データの収録先が特定された論文を排除後、残った論文からサンプルを無作為抽出し、収録先が特定できないデータセットの各論文での使用回数とその種類を推定した。

結果

約12%の論文のデータセットは、一般に認められているリポジトリに収録されていることが明確に記述され、88%は収録先が特定できないデータセットであった。収録先が特定できないデータセットを含む論文には、平均2.9から3.4のデータセットが存在した。この結果から、2011年出版の助成研究から生じた収録先の特定できないデータセット数は20万から23万5千件と推測した。約87%の収録先を特定できないデータセットは、研究報告のために新たに収集されたデータであり、13%は既存データの再利用であった。50%以上が生きた人間あるいは人間以外の動物から得られたデータセットであった。

結論

この研究では、NIHから助成を受ける研究者が年間産出するデータセット総数を推定することに加え、「データセット」の定義、アーカイブおよび保存すべきデータの決定、利益となるデータセット数の予測方法といった、生物医学研究データの発見とアクセスにおける課題を特定する。論文の中のデータセット数に関する注釈者のコンセンサスが十分に一致していなければ、原則に基づいた生物医学のデータセットを特定し、特性を示す方法の必要性が高まる。