情報発信

オープンデータセット

目次

オープンデータセットについて

2015年11月、国立情報学研究所(NII)との協働により、当館所蔵の日本の古典籍350点の全冊画像データ等を、NIIの「情報学研究データリポジトリ」より、オープンデータとして公開しました。

2016年11月以降は、国立情報学研究所との連携のもと、情報・システム研究機構に新設されたデータサイエンス共同利用基盤施設人文学オープンデータ共同利用センター(CODH)と新たに連携し、CODHより各種データセットを公開しました。

日本古典籍データセット

日本古典籍データセット
ダウンロードサイト(CODHサイト)はサムネイルをクリック

「日本古典籍データセット」では、当館が所蔵する古典籍2844点と、味の素食の文化センター所蔵古典籍282点の合計3126点の各作品について、その全冊画像データと書誌データをデータセットとして一括ダウンロードすることが可能です。

重要文化財『春日懐紙』(25枚) (5枚) (1幅)、 天和2年荒砥屋版『好色一代男』、 組合せ絵入り古活字版『曾我物語』、 鎌倉期写『新古今和歌集』、 奈良絵本『宇津保物語』 『浦島太郎』 『しつか』 など、貴重な資料をフルカラー高精細画像で公開しています。

「日本古典籍くずし字データセット」

データ概要

古典籍画像データ

各作品の画像データをJPEG形式で保存したものです。国文学分野のほか、国文学研究資料館が所蔵する医学や理学、産業など多分野の古典籍、さらに味の素 食の文化センターが所蔵する料理本等で、国文学研究資料館が撮影した古典籍を含みます。

書誌データ

各作品の書誌データをCSV形式でまとめたものです。国文学研究資料館で公開している「国書データベース」より、書誌ID/書名/著者名/巻数/刊写の別/出版事項/形態/注記などを抽出したものとなっています。なお一部の作品には国文学研究資料館にて付与した略解題も含まれています。

本文テキストデータ

翻刻した本文テキストデータをプレーンテキストまたはDOCX形式で保存したものです。一部の作品に限ります。

タグデータ

国文学研究資料館で付与作業を行っている、1枚1枚の画像に対する文中の固有名詞のタグ情報をCSV形式でまとめたものです。一部の作品に限ります。

利用条件

CC BY-SA

利用条件は2024年3月までの条件です、最新の情報は ここをクリック

日本古典籍データセット』のライセンスは、クリエイティブ・コモンズ 表示-継承 4.0 国際 ライセンス(CC BY-SA)です。この条件に同意される方であれば、どなたでもご利用頂けます。利用に際しては、所蔵機関の許諾を必要としませんが、CC BY-SAのライセンスですので、所蔵機関のコンテンツを利用している旨を適宜の方法で明記してください。
例:国文学研究資料館所蔵『源氏物語画帖』CC BY-SA

日本古典籍くずし字データセット

日本古典籍くずし字データセット
ダウンロードサイト(CODHサイト)はサムネイルをクリック

日本古典籍データセットにより公開した古典籍を中心に、翻刻テキストを制作する過程で生まれるくずし字の座標情報などを、機械のための学習データや人間のための学習データとして提供したものです。

「日本古典籍くずし字データセット」

データ概要

原本補正画像データ

日本古典籍データセットほかで公開する画像に対して、翻刻作業を容易にするための前処理として、見開き画像を分離するとともに、回転させて正立させるという処理を加えた画像です。

文字座標データ

原本補正画像データ上で、文字を取り囲む長方形の座標(XYWH)、文字のUnicodeコードポイント、ブロックID、文字IDを記録したものです。

字形画像データ

「原本補正画像データ」に「文字座標データ」を適用して切り抜いた画像であり、文字種ごとに字形を閲覧しやすくするために提供するものです。

利用条件

CC BY-SA

利用条件は2024年3月までの条件です、最新の情報は ここをクリック

『日本古典籍くずし字データセット』のライセンスは、クリエイティブ・コモンズ 表示- 継承 4.0 国際 ライセンス(CC BY-SA)です。この条件に同意される方であれば、どなたでもご利用頂けます。利用に際しては、所蔵機関の許諾を必要としませんが、CC BY-SAのライセンスですので、所蔵機関のコンテンツを利用している旨を適宜の方法で明記してください。

データセット全体を利用の場合:
『日本古典籍くずし字データセット』(国文研ほか所蔵/CODH加工) doi:10.20676/00000340

個別資料のデータセットを利用の場合:
『日本古典籍くずし字データセット』((ここに所蔵機関名を記載)提供/国文研・CODH加工) doi:10.20676/00000340

くずし字データ作成基本仕様

「日本古典籍くずし字データセット」の各データについては、「くずし字データセット」に汎用性を持たせるため、国文学研究資料館における仕様の内容を公開しています。
業者に発注する場合はもちろんのこと、個人でデータを作成する場合の作成ルールとして、ご活用ください。
※本仕様は人文学オープンデータ共同利用センター(CODH)と国文学研究資料館の協議

「くずし字データセット」データ作成基本仕様PDF 「くずし字データセット」データ作成基本仕様 Word

江戸料理レシピデータセット

江戸料理レシピデータセット
ダウンロードサイト(CODHサイト)はサムネイルをクリック

日本古典籍データセットに含まれる江戸の料理本を、現代の生活にも取り入れるために、現代レシピに変換して提供しました。

最初の江戸料理レシピとして、100種類以上の卵料理を集めた『万宝料理秘密箱 卵百珍』を取り上げています。

「江戸料理レシピデータセット」

データ概要

原本画像データ

日本古典籍データセットで公開している画像です。くずし字を読め、かつ江戸時代の日本語や料理法を知っていれば料理が作れます。

翻刻テキストデータ

原本画像のくずし字をテキスト化したデータです。江戸時代の日本語や料理法を知っていれば料理が作れます。

現代語訳データ

翻刻テキストデータの内容を現代の日本語に翻訳したデータです。江戸時代の料理法を知っていれば料理が作れます。

現代レシピデータ

現代語訳データの内容を、現代の道具や食材でも作れるものに変更し、食材の分量や写真を加えてより具体化したデータです。手順に従えば料理が作れます。

江戸時代の料理本には細かい手順が書いていないため、現代レシピの形式に整えるには江戸の料理文化への理解や現代のレシピに関する理解がある専門家の助力が必要です。つまり、利用者にとってもっとも親切な現代レシピデータは、作るのにもっとも手間がかかるデータということになります。そのため江戸料理レシピデータセットでは、現代レシピまで翻訳するレシピの点数を絞り込み、一部のレシピについてはその前の段階で止めるという方法を用いています。

利用条件

CC BY-SA

利用条件は2024年3月までの条件です、最新の情報は ここをクリック

江戸料理レシピデータセット』のライセンスは、クリエイティブ・コモンズ 表示- 継承 4.0 国際 ライセンス(CC BY-SA)です。この条件に同意される方であれば、どなたでもご利用頂けます。利用に際しては、所蔵機関の許諾を必要としませんが、CC BY-SAのライセンスですので、所蔵機関のコンテンツを利用している旨を適宜の方法で明記してください。
例:『江戸料理レシピデータセット』(CODH制作)、『日本古典籍データセット』(国文研所蔵)を翻案

顔コレデータセット

顔コレデータセット
ダウンロードサイト(CODHサイト)はサムネイルをクリック

日本の絵巻物や絵本に登場する様々な顔貌画像「顔コレ(顔貌コレクション)」を、機械学習に利用しやすい形式で提供するデータセットです。複数の組織がIIIF (International Image Interoperability Framework)形式で公開する絵巻物・絵本に登場する様々な顔貌画像の所在情報とメタデータをまとめています。

データ概要

  1. 顔貌画像(画素:256×256)の所在情報(URL)をまとめたテキストファイル
  2. 専門家が付与した属性情報(メタデータ)をまとめたテキストファイル
  3. 機械学習のためのラベルとデータ分割を指定するCSVファイル。

オリジナルの顔コレとの違いは、画像サイズを256x256に統一したこと、および機械学習のためにデータ形式を変換したことです。
以下のGitHubリポジトリ(英語)では、顔コレデータセットに加え、顔貌画像のダウンロードと前処理を行うためのスクリプトもあわせて提供します。
GitHub: rois-codh/kaokore: Dataset for the Collection of Facial Expressions from Japanese Artwork

利用条件

CC BY-SA

利用条件は2024年3月までの条件です、最新の情報は ここをクリック

『顔コレデータセット』のライセンスは、クリエイティブ・コモンズ 表示- 継承 4.0 国際 ライセンス(CC BY-SA)です。この条件に同意される方であれば、どなたでもご利用頂けます。利用に際しては、所蔵機関の許諾を必要としませんが、データセットを利用した著作物(論文等)には、データセットの名称およびDOIを表示してください。
例:『顔コレデータセット』(CODHが複数の機関から収集), doi:10.20676/00000353

※複数の原典画像公開者が関係しているため、すべての原典画像公開者を明示することは求めませんが、顔コレデータセットから派生した新たなデータセットやソフトウェアを公開する場合は、「原典画像公開者一覧ファイル」を配布物に含めてください。

KMNISTデータセット

KMNISTデータセット
ダウンロードサイト(CODHサイト)はサムネイルをクリック

機械学習研究で著名なMNISTデータセット互換のくずし字データセットとして、日本古典籍くずし字データセットから派生したデータセットです。MNISTデータセットに対応した機械学習ソフトウェアであれば、設定を変更するだけで気軽にKMNISTを試すことができます。目的に応じて、Kuzushiji-MNIST、Kuzushiji-49、Kuzushiji-Kanjiの3種類のデータセットをご利用下さい。

データ概要

Kuzushiji-MNIST

Kuzushiji-MNIST is a drop-in replacement for the MNIST dataset (28x28 grayscale, 70,000 images), provided in the original MNIST format as well as a NumPy format. Since MNIST restricts us to 10 classes, we chose one character to represent each of the 10 rows of Hiragana when creating Kuzushiji-MNIST.

Kuzushiji-49

As the name suggests, Kuzushiji-49 has 49 classes (28x28 grayscale, 270,912 images), is a much larger, but imbalanced dataset containing 48 Hiragana characters and one Hiragana iteration mark.

Kuzushiji-Kanji

Kuzushiji-Kanji is an imbalanced dataset of total 3832 Kanji characters (64x64 grayscale, 140,426 images), ranging from 1,766 examples to only a single example per class.

本データセットをダウンロードするためのリンクは、以下のGitHubリポジトリにまとめています。
GitHub: Repository for Kuzushiji-MNIST, Kuzushiji-49, and Kuzushiji-Kanji

利用条件

CC BY-SA

利用条件は2024年3月までの条件です、最新の情報は ここをクリック

『KMNISTデータセット』のライセンスは、クリエイティブ・コモンズ 表示- 継承 4.0 国際 ライセンス(CC BY-SA)です。この条件に同意される方であれば、どなたでもご利用頂けます。利用に際しては、所蔵機関の許諾を必要としませんが、データセットを利用した著作物(論文等)には、データセットの名称およびDOIを表示してください。
例:『KMNISTデータセット』(CODH作成) 『日本古典籍くずし字データセット』(国文研ほか所蔵)を翻案 doi:10.20676/00000341

Page top