校正テキストデータの作成・公開

国文研DDHプロジェクトでは、国書データベースを通じて公開されている古典籍のデジタル画像の一部について、OCR技術で作成したテキストをもとに、人の手を介して校正したテキストデータを作成しています。これらのテキストデータには画像中での位置情報も付与されます。
作成した校正テキストデータは、標準的な形式で利活用できるよう整備し、公開していきます。

OCR処理によるテキストデータ

OCR処理によるテキストデータ(「たいしょくわん」の例)

 

人手等による校正を経たテキストデータ

「ふみのは®ゼミ」を利用した校正テキストデータの作成画面例