オープンデータセット

   国文学研究資料館は、歴史的典籍画像の一層の活用を図るため、日本古典籍のデジタルデータのオープン化を目指しています。2015年11月、国立情報学研究所(NII)との協働により、当館所蔵の日本の古典籍350点の全冊画像データ等を、NIIの「情報学研究データリポジトリIDRより、オープンデータとして公開しました。
     そして2016年11月より、国立情報学研究所との連携のもと、情報・システム研究機構に新設されたデータサイエンス共同利用基盤施設  人文学オープンデータ共同利用センター(CODH)と新たに連携し、CODHより各種データセットを公開しております。

データセットについての活用例を紹介しております。

日本古典籍データセット

   「古典籍をもっと自由に使ってもらうために・・・」古典籍の画像データは、「新日本古典籍総合データベース」を使えば、その多彩な検索機能によって探している古典籍の全冊画像を見ることができます。検索した画像データも高精細でダウンロードし、好きなように加工して利用することもできます。では、古典籍を作品まるごとダウンロードしたいときは、どうすればよいでしょうか。「日本古典籍データセット」は、当館が所蔵する古典籍701点の各作品について、その全冊画像データと書誌データをデータセットとして一括ダウンロードすることが可能です。

    《構成》
  • 古典籍画像データ:701点の各作品について、その全冊(約16万コマ)のJPEG形式の画像データです。これらは国文学分野のほか、国文学研究資料館で収集した、医学や理学、産業など多分野の古典籍を含んでいます。
  • 書誌データ:701点の各作品の書誌データをCSV形式でまとめたものです。国文学研究資料館で公開している「日本古典籍総合目録データベース」より、書誌ID/書名/著者名/巻数/刊写の別/出版事項/形態/注記などを抽出したものとなっています。なお一部の作品には国文学研究資料館にて付与した略解題も含まれています(なお、CSV形式はExcelで開けた場合、文字化けが生じることがあります。「メモ帳」などを利用してください。)。
  • 本文テキストデータ:一部の作品については、その翻刻本文テキストデータを付しています。
  • タグデータ:一部の作品については、国文学研究資料館で付与作業を行っている、1枚1枚の画像に対する文中の固有名詞のタグ情報もCSV形式のデータとして提供いたします。
    《主な公開作品》
  • 日本文学 407点
    • 『源氏物語』関連資料 184点:『源氏物語団扇画帖』『源氏物語系図』ほか
    • 『徒然草』 33点
    • 展示「書物で見る日本古典文学史」出展作品 107点:『古今和歌集』『竹取物語』『雨月物語』ほか
    • 貴重書や奈良絵本など 30点:『好色一代男』『ささやき竹』『十二類絵巻』『長恨歌絵巻』ほか
    • その他 53点:『画本虫撰』『唐糸草紙』ほか
  • 芸術・諸芸等 62点:『豆腐百珍』『万宝料理秘密箱』『涌蓮大徳短冊帖』『四季漬物塩嘉言』『新編異国料理』ほか
  • 歴史 24点:『武徳編年集成』『将軍家譜』『勢免天話草』ほか
  • 医学 38点:『医心方』『かてもの』『本草綱目』ほか
  • 理学 26点:『訓蒙天地辨』『天文図解』ほか
  • 産業 27点:『日本山海名産図会』『養蚕秘録』『紙漉重宝記』『農業全書』ほか
  • 地理 39点:『江戸砂子』『琉球談』『日光山志』『万国新話』ほか
  • 教育 26点:『諸国名物往来』『万世古状揃』ほか
  • 政治・法制 22点:『寛政武鑑』ほか
  • 風俗・生活 6点:『百工秘術』『海外人物輯』ほか
  • 宗教 6点:『三社託宣鈔』ほか
  • 経済 3点:『五穀無尽蔵』『田制沿革篇』ほか
  • 武学・武術 9点:『武道初心集』『武教全書』『新刃銘尽後集』ほか
  • 言語 3点:『英語箋』『洋学指針』ほか
  • 総記 3点:『年号便覧』『拾玉智恵海』ほか

日本古典籍字形データセット

   「日本古典籍データセット」等でデジタル化された古典籍の文字の情報を提供します。
   1文字づつの画像、文字座標データなどを1セットにして提供しますので、古典籍に書かれた文字の機械学習用データなどへの活用、そしてくずし字解読の効率化などが期待されます。

    《データ数》
    以下15点の資料に書かれた3,999文字種の字形データ403,242文字
    「好色一代男」 「おらが春」 「雨月物語」 「当世料理」 「養蚕秘録」 「万宝料理秘密箱 」 「膳部料理抄」 「料理物語」 「かてもの」 「日用惣菜俎不時珍客即席庖丁」 「料理方心得之事」 「新編異国料理」 「料理秘伝抄」 「物類称呼(国語研所蔵資料)」 「比翼連理花迺志満台(国語研所蔵資料)」
    《データ概要》
  • 原本補正画像データ:日本古典籍データセットほかで公開する画像に対して、翻刻作業を容易にするための前処理として、見開き画像を分離するとともに、回転させて正立させるという処理を加えた画像です。
  • 文字座標データ:原本補正画像データ上で文字を取り囲む長方形の座標(XYWH)、文字のUnicodeコードポイント、ブロックID、文字IDを記録したものです。
  • 字形画像データ:「原本補正画像データ」に「文字座標データ」を適用して切り抜いた画像であり、文字種ごとに字形を閲覧しやすくするために提供するものです。
  • 作業報告文書:作業で読めなかった文字に関する情報や、その他の注意事項を記したドキュメントです。
    《利用条件》

    クリエイティブ・コモンズ・ライセンス 『日本古典籍字形データセット』と仕様書のライセンスは、クリエイティブ・コモンズ 表示- 継承 4.0 国際 ライセンス(CC BY-SA)です。この条件に同意される方であれば、どなたでもご利用頂けます。利用に際しては、所蔵機関の許諾を必要としませんが、CC BY-SAのライセンスですので、所蔵機関のコンテンツを利用している旨を適宜の方法(「国文研ほか所蔵・CODH加工」等)で明記してください。


日本古典籍字形データセットへ
(「人文学オープンデータ共同利用センター」サイト)

   「日本古典籍字形データセット」の各データについて、当館がどのような仕様で発注しているか、仕様書の内容を提供することにより、「字形データセット」に汎用性をもたせていきたいと考えています。
   なお、本仕様は人文学オープンデータ共同利用センター(CODH)と国文学研究資料館の協議のもと作成しています。


江戸料理レシピデータセット

   日本古典籍データセットに含まれる江戸の料理本を、現代の生活にも取り入れるために、現代レシピに変換して提供します。
   最初の江戸料理レシピとして、100種類以上の卵料理を集めた『万宝料理秘密箱 卵百珍』を取り上げます。

    《構成》
  • 原本画像データ:日本古典籍データセットで公開する画像です。くずし字を読め、かつ江戸時代の日本語や料理法を知っていれば料理が作れます。
  • 翻刻テキストデータ:原本画像のくずし字をテキスト化したデータです。江戸時代の日本語や料理法を知っていれば料理が作れます。
  • 現代語訳データ:翻刻テキストデータの内容を現代の日本語に翻訳したデータです。江戸時代の料理法を知っていれば料理が作れます。
  • 現代レシピデータ:現代語訳データの内容を、現代の道具や食材でも作れるものに変更し、食材の分量や写真を加えてより具体化したデータです。手順に従えば料理が作れます。
  •    江戸時代の料理本には細かい手順が書いていないため、現代レシピの形式に整えるには江戸の料理文化への理解や現代のレシピに関する理解がある専門家の助力が必要です。つまり、利用者にとってもっとも親切な現代レシピデータは、作るのにもっとも手間がかかるデータということになります。そのため江戸料理レシピデータセットでは、現代レシピまで翻訳するレシピの点数を絞り込み、一部のレシピについてはその前の段階で止めるという方法を用いています。

    《利用条件》

    クリエイティブ・コモンズ・ライセンス 『江戸料理レシピデータセット』のライセンスは、クリエイティブ・コモンズ 表示- 継承 4.0 国際 ライセンス(CC BY-SA)です。この条件に同意される方であれば、どなたでもご利用頂けます。利用に際しては、所蔵機関の許諾を必要としませんが、CC BY-SAのライセンスですので、所蔵機関のコンテンツを利用している旨を適宜の方法(『江戸料理レシピデータセット』(CODH制作)、『日本古典籍データセット』(国文研所蔵)を翻案等)で明記してください。


江戸料理レシピデータセットへ
(「人文学オープンデータ共同利用センター」サイト)

↑ ページの先頭へ