日本古典籍データセット等の活用例

「日本古典籍データセット」及び「日本古典籍字形データセット」の活用例をご紹介いたします。

武鑑全集
(http://codh.rois.ac.jp/bukan/)

人文学オープンデータ共同利用センターから公開しているデータセットで、江戸時代の200年続いたベストセラーである『武鑑』を網羅的に解析し、江戸時代の大名家や幕府役人に関する人物・地理情報などの中核的情報プラットフォームを構築するプロジェクトです。
将来的にはより多くの『武鑑』を対象とする予定ですが、最初の対象資料として「日本古典籍データセット」で公開されている『寛政武鑑(1789)』を分析しています。

武鑑全集

また、『寛政武鑑(1789)』の大名家を対象に、参勤交代の時期をアニメーションとして可視化している参勤交代マップに特にご注目ください。 参勤交代マップ


くずし字チャレンジ!
(http://codh.rois.ac.jp/old-char-challenge/)

人文学オープンデータ共同利用センターで実施しているプロジェクトです。「日本古典籍字形データセット」をくずし字の大規模な学習データセットとして人工知能(AI)をトレーニングして、くずし字が読めるようになるか、様々な難問に対して集団の力でアタックするプロジェクトです。

くずし字チャレンジ!


第21回PRMUアルゴリズムコンテスト
(https://sites.google.com/view/alcon2017prmu)

PRMU研究会が、パターン認識・メディア理解分野の若手研究者・学生の育成および研究会活動の活性化を目的として毎年開催しているアルゴリズムコンテストに、「日本古典籍字形データセット」が課題として選ばれました。

アルゴリズムコンテスト

アルゴリズムコンテスト課題内容

また、2017年11月10日~11日に開催された国際会議 The 4th International Workshop on Historical Document Imaging and Processing(HIP2017)において、「PRMUアルゴリズムコンテスト」に関する論文(Hung Tuan Nguyen, Nam Tuan Ly, Kha Cong Nguyen, Cuong Tuan Nguyen and Masaki Nakagawa)が、国際的に高い評価を受け Best Paper Award を受賞いたしました。
ICDAR2017
ICDAR2017 Workshops


変体仮名の画像認識システム
(http://npn-2sc1815j.appspot.com/)

2SC1815J氏による「変体仮名の画像認識システム」Web API利用機能を組み込んだカスタム版ビューワです。

変体仮名の画像認識システム1
画面下部に①「see details」の文字が出てくるので、こちらをクリックします。

変体仮名の画像認識システム2
②テキストボックスにURLを貼り付け、閲覧ボタンをクリックします。(URLの確認は下記注を参照)

変体仮名の画像認識システム3
③黒四角ボタンまたはsキーを押下し、④変体仮名(1文字分)を選択します。

変体仮名の画像認識システム4
文字認識結果がダイアログ表示されます。

変体仮名の画像認識システム5
(注)②のテキストボックスに貼り付けるURLは、日本古典籍データセットの閲覧したいデータセットの画面を開き、⑤右上のインフォメーションボタンを選択し、⑥「IIIF Manifest URI」から確認できます。



『絵入源氏物語』の テキスト分析サイト
(https://gtcym.shinyapps.io/genjiapp/)

同志社大学の土山玄氏による『絵入源氏物語』の テキスト分析サイトです。日本古典籍データセットの『源氏物語』(承応3年《ID 200003803》)の全文翻刻テキストデータの解析を行うサイトです。
テキスト分析サイト


「日本古典籍データセット」の本文抽出サイト
(http://npn-http://researchmap.jp/joqfrlli3-2178/#_2178 )

大阪大学文学研究科 岡島昭浩氏の研究ブログ上で、日本古典籍データセットのうち「源氏物語」「二十一代集」「かてもの」「養蚕秘録」「涌蓮大徳短冊帖」の本文を抽出し公開されています。


「日本古典籍データセット」簡易検索
(http://npn-2sc1815j.appspot.com/iiif-curation-viewer-enhanced/search.html)

@2SC1815J氏による、「日本古典籍データセット」の注記や解題を含む内容を、一覧として確認できる検索サイトです。


Mirador2.1(http://projectmirador.org.html)

IIIF(トリプルアイエフ)対応の高機能画像ビューワ「Mirador2.1」のサンプル資料に、当館のデータセットの画像『唐糸草紙』(書誌ID:200003067/DOI:10.20730/200003067)が使用されています。
ここで標準サンプルとして搭載されているデータは、当館のデータセットを人文情報学研究所の永﨑研宣氏がIIIF対応で公開したものに、カルガリー大学の楊暁捷氏がWebコラボレーションシステムを用いて翻刻テキストを付加したものです。

ビューワの「アイテム追加」又は「新しいオブジェクト」をクリックすると、各地のIIIF対応サーバから集められたサンプル資料の一覧の中に『唐糸草子』があります。


サムネイル画像をクリックして拡大画像が表示されましたら①左上の「アノテーション」をクリックすると、アノテーションが付与されている箇所が表示され、②その箇所の翻刻テキストが表示されます。
詳細は、永﨑氏のブログ(digitalnagasakiのブログ:http://digitalnagasaki.hatenablog.com/entry/2016/09/17/034714)をご覧ください。


豊田高専くずし字翻刻WWWサービス
(http://vpac.toyota-ct.ac.jp/hayasaka/kuzushiji/)

国立高等専門学校機構 豊田工業高等専門学校の早坂太一氏、大野亙氏、加藤弓枝氏らによる、くずし字認識を行うWWWアプリケーションです。日本古典籍データセット等の文書画像を読み込ませ、1文字をマウスで選択すると、ディープラーニングによる画像認識技術により、翻刻結果が出力されます。
《例》『絵本見立仮譬尽』(書誌ID:200015136/DOI:10.20730/200015136)で試した場合
くずし字翻刻WWWサービス
豊田高専くずし字翻刻WWWサービスの画面を開きます。

くずし字翻刻WWWサービス
①をクリックして、読みたい画像を開き、②翻刻したいくずし字を選択する。

くずし字翻刻WWWサービス
③をクリックしてくずし字を認識させると、翻刻結果が確認できます。


立命館大学ARC古典籍ポータルデータベース
(http://www.dh-jac.net/db1/books/search_portal.php)

立命館大学アート・リサーチセンター(ARC)の所蔵品・寄託品の他、それ以外の書籍・古典籍も 総合的に検索できるデータベースです。この中に、日本古典籍データセットも含まれています。
《例》『源氏物語』(書誌ID:200003803/DOI:10.20730/200003803)
ARC古典籍ポータルデータベース
上記URLの検索画面にて、①資料名に「源氏物語」を記入、②所蔵者に「国文学研究資料館」を入力して③検索ボタンをクリックします。

ARC古典籍ポータルデータベース
検索結果がに出てくるので、④小画像をクリックします。

ARC古典籍ポータルデータベース
サムネイル画像一覧が出てきますので、必要な画像をクリックすると、詳細画像を確認することができます。


くずし字学習支援アプリKuLA(Kuzushiji Learning Application)

「KuLA」は、スマートフォンやタブレットを使って効率的に「くずし字」を学習するために開発されたアプリで、平成27年度科研挑戦的萌芽研究「日本の歴史的典籍に関する国際的教育プログラムの開発」(代表・飯倉洋一教授)の成果として、大阪大学文学研究科を中心に開発されました(「歴史的典籍NW事業」も連携しています。)。このアプリの画像に、日本古典籍データセットが利用されています。
紹介ページ
・大阪大学大学院文学研究科・文学部ホームページ
(http://www.let.osaka-u.ac.jp/ja/research/community/hodo/iikura_KuLA)
・androidアプリ情報ナビ (https://android-app-navi.com/kula/)

アプリで使用されているデータセット 『新刃銘尽後集』(書誌ID:200022035/DOI:10.20730/200022035)(下の画像は155コマ目)


・アプリのダウンロードサイト
【googleplay】 https://play.google.com/store/apps/details?id=yuta.hashimoto.kula&hl=ja
【iTune】 https://itunes.apple.com/jp/app/kuzushi-zi-xue-xi-zhi-yuanapurikula/id1076911000?mt=8


The Web KANZAKI (http://www.kanzaki.com/works/2016/pub/image-annotator)

神崎正英氏が公開されている「Image Annotator」のページにおいて、日本古典籍データセットで公開した『画本虫撰』(書誌ID:200014778/DOI:10.20730/200014778)を使って、国際的な規格であるIIIF(トリプルアイエフ)の技術を紹介されています。
このページでは、IIIF マニフェストが公開されている画像について、画像と注釈を表示し、その画像の部分に対する注釈(Web Annotation)を追加することができる機能が紹介されています。その事例の中で、次に紹介するIIIF対応の「国文研データセット簡易 Web閲覧」で公開されている画像とIIIF マニフェストが活用されています。

Image Annotator by KANZAKI

これに加え、「万法料理秘密箱」に画像を含むアノテーションを施した事例を紹介しています。 Image Annotator by KANZAKI

また、「日本古典籍データセット」を「IIIF Manifest Collections」として、日本古典籍データセット全作品を掲載しています。
Image Annotator by KANZAKI



国文研データセット簡易Web閲覧 (http://www2.dhii.jp/nijl_opendata/openimages.php)

人文情報学研究所の永崎研宣氏による、日本古典籍データセットを簡易に閲覧できるシステムです。このシステムはデジタルアーカイブにおいて画像を公開し共有するためのIIIFに対応しています。また、くずし字認識機能として、@2SC1815J氏による「変体仮名の画像認識システム(α版)」(https://hentaigana.herokuapp.com/aboutを参照。)が組み込まれています。


※「変体仮名の画像認識システム(α版)」の学習用に使われたのは、東京外国語大学アジア・アフリカ言語文化研究所 岡田一祐氏(現在、当館古典籍共同研究事業センター特任助教)による「『和翰名苑』仮名字体データベース」(https://kana.aa-ken.jp/wakan/)の画像とのことです。
↑ ページの先頭へ