オープンデータセット

   国文学研究資料館は、歴史的典籍画像の一層の活用を図るため、日本古典籍のデジタルデータのオープン化を目指しています。2015年11月、国立情報学研究所(以下NII)との協働により、当館所蔵の日本の古典籍350点の全冊画像データ等を、NIIの「情報学研究データリポジトリIDR」より、オープンデータとして公開しました。
     そして2016年11月より、国立情報学研究所との連携のもと、情報・システム研究機構に新設されたデータサイエンス共同利用基盤施設  人文学オープンデータ共同利用センターと新たに連携し、各種データセットを公開しております。

 

日本古典籍データセット

   2015年11月に公開した「国文研古典籍データセット(第0.1版)」に、当館が所蔵する350点分を新規追加し、オープンデータとして提供します。

    《構成》
  • 古典籍画像データ:700点の各作品について、その全冊(約16万コマ)のJPEG形式の画像データです。これらは国文学分野のほか、国文学研究資料館で収集した、医学や理学、産業など多分野の古典籍を含んでいます。
  • 書誌データ:700点の各作品の書誌データをCSV形式でまとめたものです。国文学研究資料館で公開している「日本古典籍総合目録データベース」より、書誌ID/書名/著者名/巻数/刊写の別/出版事項/形態/注記などを抽出したものとなっています。なお一部の作品には国文学研究資料館にて付与した略解題も含まれています。
  • 本文テキストデータ:一部の作品については、その翻刻本文テキストデータを付しています。
  • タグデータ:一部の作品については、国文学研究資料館で付与作業を行っている、1枚1枚の画像に対する文中の固有名詞のタグ情報もCSV形式のデータとして提供いたします。
    《新規公開内容》  『源氏物語』『徒然草』のほか、一度は耳にしたことのある日本古典の名作を公開いたします。
  • 『源氏物語』づくし:『源氏物語』関連資料
  • 『徒然草』セレクト:『徒然草』を約30点
  • 展示「書物で見る日本古典文学史」出展作品
  • その他、貴重書や奈良絵本など
    《利用条件》 

    クリエイティブ・コモンズ・ライセンス 『日本古典籍データセット』のライセンスは、クリエイティブ・コモンズ 表示 - 継承 4.0 国際 ライセンス(CC BY-SA)です。この条件に同意される方であれ ば、どなたでもご利用頂けます。利用に際しては、所蔵機関の許諾を必要としま せんが、CC BY-SAのライセンスですので、所蔵機関のコンテンツを利用している 旨を適宜の方法(「国文学研究資料館所蔵」「国文研蔵」等)で明記して くだ さい。


日本古典籍データセットへ
(「人文学オープンデータ共同利用センター」サイト)


日本古典籍字形データセット

   デジタル化された当館所蔵古典籍の翻刻過程で生まれる文字の情報を提供します。
   1文字づつの画像、文字座標データなどを1セットにして提供しますので、古典籍に書かれた文字の機械学習用データなどへの活用、そしてくずし字解読の効率化などが期待されます。
    《データ数》
    以下8点の資料に書かれた86,176文字
    「当世料理」 「万宝料理秘密箱 」 「膳部料理抄」 「料理物語」 「日用惣菜俎不時珍客即席庖丁」 「料理方心得之事」 「新編異国料理」 「料理秘伝抄」
    《データ概要》
  • 原本補正画像データ:日本古典籍データセットで公開する画像に対して、翻刻作業を容易にするための前処理として、見開き画像を分離するとともに、回転させて正立させる という処理を加えた画像です。
  • 文字座標データ:原本補正画像データ上で文字を取り囲む長方形の座標(XYWH)、文字のUnicodeコードポイント、ブロックID、文字IDを記録したものです。
  • 字形画像データ:「原本補正画像データ」に「文字座標データ」を適用して切り抜いた画像であり、文字種ごとに字形を閲覧しやすくするために提供するものです。
  • 作業報告文書:作業で読めなかった文字に関する情報や、その他の注意事項を記したドキュメントです。
    《利用条件》

    クリエイティブ・コモンズ・ライセンス 『日本古典籍字形データセット』のライセンスは、クリエイティブ・コモンズ 表示 - 継承 4.0 国際 ライセンス(CC BY-SA)です。この条件に同意される方であれ ば、どなたでもご利用頂けます。利用に際しては、所蔵機関の許諾を必要としま せんが、CC BY-SAのライセンスですので、所蔵機関のコンテンツを利用している 旨を適宜の方法(「国文研所蔵・CODH加工」等)で明記して くだ さい。

日本古典籍字形データセットへ
(「人文学オープンデータ共同利用センター」サイト)


 

江戸料理レシピデータセット

   日本古典籍データセットに含まれる江戸の料理本を、現代の生活にも取り入れるために、現代レシピに変換して提供します。
   最初の江戸料理レシピとして、100種類以上の卵料理を集めた『万宝料理秘密箱 卵百珍』を取り上げます。

    《構成》
  • 原本画像データ:日本古典籍データセットで公開する画像です。くずし字を読め、かつ江戸時代の日本語や料理法を知っていれば料理が作れます。
  • 翻刻テキストデータ:原本画像のくずし字をテキスト化したデータです。江戸時代の日本語や料理法を知っていれば料理が作れます。
  • 現代語訳データ:翻刻テキストデータの内容を現代の日本語に翻訳したデータです。江戸時代の料理法を知っていれば料理が作れます。
  • 現代レシピデータ:現代語訳データの内容を、現代の道具や食材でも作れるものに変更し、食材の分量や写真を加えてより具体化したデータです。手順に従えば料理が作れます。

   江戸時代の料理本には細かい手順が書いていないため、現代レシピの形式に整えるには江戸の料理文化への理解や現代のレシピに関する理解がある専門家の助力が必要です。つまり、利用者にとってもっとも親切な現代レシピデータは、作るのにもっとも手間がかかるデータということになります。そのため江戸料理レシピデータセットでは、現代レシピまで翻訳するレシピの点数を絞り込み、一部のレシピについてはその前の段階で止めるという方法を用いています。

    《利用条件》 

    クリエイティブ・コモンズ・ライセンス 『日本古典籍データセット』のライセンスは、クリエイティブ・コモンズ 表示 - 継承 4.0 国際 ライセンス(CC BY-SA)です。この条件に同意される方であれ ば、どなたでもご利用頂けます。利用に際しては、所蔵機関の許諾を必要としま せんが、CC BY-SAのライセンスですので、所蔵機関のコンテンツを利用している 旨を適宜の方法『江戸料理レシピデータセット』(CODH制作、『日本古典籍データセット』国文研所蔵を翻案)等で明記してください。


江戸料理レシピデータセットへ
(「人文学オープンデータ共同利用センター」サイト)

↑ ページの先頭へ