OCRによるテキストデータ化
国文研DDHプロジェクトでは、国書データベースを通じて公開されている古典籍のデジタル画像を対象に、OCR技術でテキストデータを作成しており、プロジェクトの十年間(令和6(2024)~令和15(2033)年度)を通して、約270,000作品の古典籍のテキストデータ化を目指しています。
作成したOCRによるテキストデータは、国文研プロジェクト型共同研究等の研究活動へ提供するとともに、研究開発のために連携機関等へも提供するなど、様々な研究活動・研究開発に活用しています。
国文研プロジェクト型共同研究での活用
作成したOCRによるテキストデータは、国文研プロジェクト型共同研究での研究開発にも活用しています。
国文研プロジェクト型共同研究(萌芽研究、共同研究、NW事業発展型研究、重点課題研究)は、「データインフラストラクチャの構築」「人文系データ分析技術の開発」「コンテンツ解析からの展開」「マテリアル分析・解析」の4つの研究領域にわたって研究・開発を行う共同研究です。
特に重点課題研究は、国文研DDHプロジェクトの重要事項として挙げる以下の各テーマについて実施する公募型共同研究です。
①古典籍画像からのテキストデータ自動生成のための手法開発と実践
②自動生成テキストデータを活用した検索手法の開発
③多様なテキスト資源を活用したテキスト校正方法の検討と実証
④自動生成テキスト及び校正テキストの活用事例研究