オープンデータセット
国文学研究資料館は、歴史的典籍画像の一層の活用を図るため、日本古典籍のデジタルデータのオープン化を目指しています。2015年11月、国立情報学研究所(NII)との協働により、当館所蔵の日本の古典籍350点の全冊画像データ等を、NIIの「情報学研究データリポジトリより、オープンデータとして公開しました。
そして2016年11月より、国立情報学研究所との連携のもと、情報・システム研究機構に新設されたデータサイエンス共同利用基盤施設 人文学オープンデータ共同利用センター(CODH)と新たに連携し、CODHより各種データセットを公開しております。
日本古典籍データセット
「日本古典籍データセット」は、人文学オープンデータ共同利用センター(CODH)のサイトからの利用となります。ここ(http://codh.rois.ac.jp/pmjt/)からアクセスしてください。
「古典籍をもっと自由に使ってもらうために・・・」古典籍の画像データは、「新日本古典籍総合データベース」を使えば、その多彩な検索機能によって探している古典籍の全冊画像を見ることができます。検索した画像データも高精細でダウンロードし、好きなように加工して利用することもできます。では、古典籍を作品まるごとダウンロードしたいときは、どうすればよいでしょうか。「日本古典籍データセット」では、当館が所蔵する古典籍2844点と、味の素食の文化センター所蔵古典籍282点の合計3126点の各作品について、その全冊画像データと書誌データをデータセットとして一括ダウンロードすることが可能です。
今回公開した1359件には、国文学研究資料館の貴重書150点が含まれています。
これにより、デジタル化済み貴重書約200点全点が日本古典籍データセットとして公開されました。
重要文化財『春日懐紙』(25枚)
(5枚)
(1幅)、
天和2年荒砥屋版『好色一代男』、
組合せ絵入り古活字版『曾我物語』、
鎌倉期写『新古今和歌集』、
奈良絵本『宇津保物語』
『浦島太郎』
『しつか』
など、貴重な資料がフルカラー高精細画像で公開されています。ぜひご覧ください。
プレスリリース(2016年11月10日)
NIIニュースリリース(2017年12月26日)
2017年 6月 2日: 1点追加 合計 701点
2017年12月26日:1066点追加 合計1767点
2019年 1月30日:1359点追加 合計3126点
《構成》
- 古典籍画像データ:3126点の各作品について、その全冊(約60万コマ)のJPEG形式の画像データです。これらは国文学分野のほか、国文学研究資料館で収集した、医学や理学、産業など多分野の古典籍を含んでいます。
- 書誌データ:3126点の各作品の書誌データをCSV形式でまとめたものです。国文学研究資料館で公開している「新日本古典籍総合データベース」より、書誌ID/書名/著者名/巻数/刊写の別/出版事項/形態/注記などを抽出したものとなっています。なお一部の作品には国文学研究資料館にて付与した略解題も含まれています(なお、CSV形式はExcelで開けた場合、文字化けが生じることがあります。「メモ帳」などを利用してください。)。
- 本文テキストデータ:一部の作品については、その翻刻本文テキストデータを付しています。
- タグデータ:一部の作品については、国文学研究資料館で付与作業を行っている、1枚1枚の画像に対する文中の固有名詞のタグ情報もCSV形式のデータとして提供いたします。
《主な公開作品》
- 日本文学 1995点
- 『源氏物語』関連資料:『源氏物語画帖』、『源氏物語系図』ほか
- 『徒然草』
- 『伊勢物語』関連資料:『伊勢物語絵巻』、『業平ねはんの図』ほか
- 展示「書物で見る日本古典文学史」出展作品:『古今和歌集』、『竹取物語』、『雨月物語』ほか
- 貴重書や奈良絵本など:重要文化財『春日懐紙』、天和2年荒砥屋版『好色一代男』、組合せ絵入り古活字版『曾我物語』、鎌倉期写『新古今和歌集』、奈良絵本『宇津保物語』『浦島太郎』『しつか』ほか
- その他:『画本虫撰』、『唐糸草紙』ほか
- 芸術・諸芸等 358点:『豆腐百珍』、『万宝料理秘密箱』、『涌蓮大徳短冊帖』、『四季漬物塩嘉言』、『新編異国料理』ほか
- 歴史 38点:『武徳編年集成』、『将軍家譜』、『勢免天話草』ほか
- 医学 60点:『医心方』、『かてもの』、『本草綱目』ほか
- 理学 33点:『訓蒙天地辨』、『天文図解』ほか
- 産業 50点:『日本山海名産図会』、『養蚕秘録』、『紙漉重宝記』、『農業全書』ほか
- 地理 45点:『江戸砂子』、『琉球談』、『日光山志』、『万国新話』ほか
- 教育 50点:『諸国名物往来』、『万世古状揃』ほか
- 政治・法制 429点:『寛政武鑑』ほか
- 風俗・生活 28点:『百工秘術』、『海外人物輯』ほか
- 宗教 9点:『三社託宣鈔』ほか
- 経済 9点:『五穀無尽蔵』、『田制沿革篇』ほか
- 武学・武術 9点:『武道初心集』、『武教全書』、『新刃銘尽後集』ほか
- 言語 6点:『英語箋』、『洋学指針』ほか
- 総記 7点:『年号便覧』、『拾玉智恵海』ほか
《利用条件》
『日本古典籍データセット』のライセンスは、クリエイティブ・コモンズ 表示- 継承 4.0 国際 ライセンス(CC BY-SA)です。この条件に同意される方であれば、どなたでもご利用頂けます。利用に際しては、所蔵機関の許諾を必要としませんが、CC BY-SAのライセンスですので、所蔵機関のコンテンツを利用している旨を適宜の方法(「国文学研究資料館所蔵」「国文研蔵」「国文研撮影/味の素食の文化センター所蔵」等)で明記してください。
日本古典籍くずし字データセット/Kuzushiji Dataset
「日本古典籍くずし字データセット」は、人文学オープンデータ共同利用センター(CODH)のサイトからの利用となります。ここ(http://codh.rois.ac.jp/char-shape/)からアクセスしてください。
「日本古典籍データセット」等でデジタル化された古典籍の文字の情報を提供します。
1文字づつの画像、文字座標データなどを1セットにして提供しますので、古典籍に書かれた文字の機械学習用データなどへの活用、そしてくずし字解読の効率化などが期待されます。
《データ数》
以下28点の資料に書かれた4,645文字種の字形データ684,165文字
「好色一代男」
「おらが春」
「雨月物語」
「当世料理」
「養蚕秘録」
「万宝料理秘密箱 」
「膳部料理抄」
「料理物語」
「かてもの」
「日用惣菜俎不時珍客即席庖丁」
「料理方心得之事」
「新編異国料理」
「料理秘伝抄」
「物類称呼(国語研所蔵資料)」
「比翼連理花迺志満台(国語研所蔵資料)」
「御前菓子秘伝抄(味の素食の文化センター所蔵資料)」
「うそなるべし(味の素食の文化センター所蔵資料)」
「餅菓子即席手製集(味の素食の文化センター所蔵資料)」
「菓子話船橋」
「鼎左秘録(味の素食の文化センター所蔵資料)」
「飯百珍伝(味の素食の文化センター所蔵資料)」
「料理珍味集(味の素食の文化センター所蔵資料)」
「椿説弓張月」
「傾城買四十八手」
「ぢぐち」
「浮世風呂」
「春色梅児与美(国語研所蔵資料)」
「南總里見八犬傳」
《データ概要》
- 原本補正画像データ:日本古典籍データセットほかで公開する画像に対して、翻刻作業を容易にするための前処理として、見開き画像を分離するとともに、回転させて正立させるという処理を加えた画像です。
- 文字座標データ:原本補正画像データ上で文字を取り囲む長方形の座標(XYWH)、文字のUnicodeコードポイント、ブロックID、文字IDを記録したものです。
- 字形画像データ:「原本補正画像データ」に「文字座標データ」を適用して切り抜いた画像であり、文字種ごとに字形を閲覧しやすくするために提供するものです。
- 作業報告文書:作業で読めなかった文字に関する情報や、その他の注意事項を記したドキュメントです。
《利用条件》
『日本古典籍くずし字データセット』と仕様書のライセンスは、クリエイティブ・コモンズ 表示- 継承 4.0 国際 ライセンス(CC BY-SA)です。この条件に同意される方であれば、どなたでもご利用頂けます。利用に際しては、所蔵機関の許諾を必要としませんが、CC BY-SAのライセンスですので、所蔵機関のコンテンツを利用している旨を適宜の方法(「国文研ほか所蔵・CODH加工 doi:10.20676/00000340」等)で明記してください。
「日本古典籍くずし字データセット」の各データについて、当館がどのような仕様で発注しているか、仕様書の内容を提供することにより、「くずし字データセット」に汎用性をもたせていきたいと考えています。
なお、本仕様は人文学オープンデータ共同利用センター(CODH)と国文学研究資料館の協議のもと作成しています。
※クリックするとダウンロードが始まります。
江戸料理レシピデータセット
「江戸料理レシピデータセット」は、人文学オープンデータ共同利用センター(CODH)のサイトからの利用となります。ここ(http://codh.rois.ac.jp/edo-cooking/)からアクセスしてください。
日本古典籍データセットに含まれる江戸の料理本を、現代の生活にも取り入れるために、現代レシピに変換して提供します。
最初の江戸料理レシピとして、100種類以上の卵料理を集めた『万宝料理秘密箱 卵百珍』を取り上げます。
《構成》
- 原本画像データ:日本古典籍データセットで公開する画像です。くずし字を読め、かつ江戸時代の日本語や料理法を知っていれば料理が作れます。
- 翻刻テキストデータ:原本画像のくずし字をテキスト化したデータです。江戸時代の日本語や料理法を知っていれば料理が作れます。
- 現代語訳データ:翻刻テキストデータの内容を現代の日本語に翻訳したデータです。江戸時代の料理法を知っていれば料理が作れます。
- 現代レシピデータ:現代語訳データの内容を、現代の道具や食材でも作れるものに変更し、食材の分量や写真を加えてより具体化したデータです。手順に従えば料理が作れます。
江戸時代の料理本には細かい手順が書いていないため、現代レシピの形式に整えるには江戸の料理文化への理解や現代のレシピに関する理解がある専門家の助力が必要です。つまり、利用者にとってもっとも親切な現代レシピデータは、作るのにもっとも手間がかかるデータということになります。そのため江戸料理レシピデータセットでは、現代レシピまで翻訳するレシピの点数を絞り込み、一部のレシピについてはその前の段階で止めるという方法を用いています。
《利用条件》
『江戸料理レシピデータセット』のライセンスは、クリエイティブ・コモンズ 表示- 継承 4.0 国際 ライセンス(CC BY-SA)です。この条件に同意される方であれば、どなたでもご利用頂けます。利用に際しては、所蔵機関の許諾を必要としませんが、CC BY-SAのライセンスですので、所蔵機関のコンテンツを利用している旨を適宜の方法(『江戸料理レシピデータセット』(CODH制作)、『日本古典籍データセット』(国文研所蔵)を翻案等)で明記してください。