隠れたデータを探し出すテキストマイニング・ツール（記事紹介）

2017年06月12日

北米・中南米ヨーロッパ

ネイチャー誌６月８日付け記事"Text-mining tool seeks out 'hidden data'"（試訳：隠れたデータを探し出すテキストマイニング・ツール）を紹介する。本記事は、研究者が論文公開時に、根拠となるデータ公開を支援するツールWide-Openに関するもの。

論文の根拠となる「隠れた」データを後で公開するつもりで、論文査読中はデータをオンラインリポジトリに置いておくということが研究者の間でしばしば行われている。しかし実際にはデータセットの公開をし忘れ、データが公開されないままになっていることがよくみられる。

遺伝学ではデータの置き場所として、米生物工学情報センター（US National Center for Biotechnology Information）の運営するGene Expression Omnibus (GEO)とSequence Read Archive (SRA)が良く知られている。

Wide-OpenはGEOあるいはSRAのコード形式を使用する固有のデータセット識別コードに着目して論文をスキャンし、公開されていないデータを探し出す。有効なコードを見つけると、そのデータに関連するリポジトリをトロールし、データセットが公開されているかどうかを探す。公開すべきデータであっても、データを利用できない場合には"期限切れ"と注記する。

PubMed Centralに収録される150万論文でWide-openを走らせたところ、GEOで473、SRAで84のデータセットがなかった。GEOの職員はこれらデータセットをチェックし、そのうち期限切れの429データセットを公開した。

Wide-Openは現在、GEOとSRAを毎月トロールし、データセットが公開されていない論文についてサイトを自動更新している。Wide-Openがスキャンできるのは法的な許諾がいらないオープンアクセス（OA）論文に限られるため、購読誌の出版社とは許可を得るための連携を図っているという。将来的には、データ共有が実践されているかどうかに基づいて、ジャーナルのランク付けを行うことも検討している。

[ニュースソース]

Text-mining tool seeks out 'hidden data' －ネイチャー　2017/6/8