"NDL Ngram Viewer"の概要と独自に実現した機能の紹介(記事紹介)

2022年09月21日

日本

​NDL(National Diet Library、国立国会図書館)は、9月1日、「NDL Ngram Viewerの公開:全文テキストデータ可視化サービス」と題する記事を公開した。

本記事は、国立国会図書館デジタルコレクションに収録されている247万点(2億2,300万画像)の資料のOCRテキストデータを活用し、2022年5月31日に開始した実験サービス"NDL Ngram Viewer"を概説したもの。

本記事では、 "ngram viewer"※の定義、同サービスの発端が2010年にGoogleが公開した"Google Books Ngram Viewer"であること、同様の取り組みとしてHathiTrustの"Bookworm"プロジェクトやフランス国立図書館の"Gallicagram"プロジェクトがあることを紹介した後、"NDL Ngram Viewer"が他のプロジェクトでは対応していない日本語の検索クエリや正規表現による検索を実現したことなどを示している。

※書籍の全文テキストデータを利用して、特定の単語やフレーズの頻度を出版年代に沿って可視化できるサービス。

[ニュースソース]

E2533 - NDL Ngram Viewerの公開:全文テキストデータ可視化サービス -- NDL 2022/09/01 (accessed 2022-09-14)