研究開発系共同研究
検索機能の高度化等の推進を目的とした、共同研究です。
キーワード抽出に関わる総合的研究
Research into the Detection of Keywords within that Text
研究期間:平成30(2018)年度~平成32(2020)年度
公立はこだて未来大学
Future University-Hakodate
研究メンバー:寺沢 憲吾(情報アーキテクチャ学科 准教授)
多元光情報の高次元化処理による古典籍情報解析に関する基礎的研究
Basic Research into Information Analysis of Pre-modern Japanese Works by High-Dimensional Processing of Multi-
Dimensional Optical Information
研究期間:平成29(2017)年度~平成31(2019)年度
奈良先端科学技術大学院大学 情報科学研究科光メディアインタフェース研究室
Nara Institute of Science and Technology
研究メンバー:向川 康博(教授)、舩冨 卓哉(准教授)、久保 尋之(助教)、田中 賢一郎(助教)
テキスト共同作成ツールの開発
Development of Collaborative Text Composition Tools
研究期間:平成29(2017)年度~平成31(2019)年度
国立歴史民俗博物館、京都大学
National Museum of Japanese History, Kyoto University
TEI(Text Encoding Initiative)の導入
Introduction of TEI(Text Encoding Initiative)
研究期間:平成29(2017)年度~平成31(2019)年度
人文情報学研究所、東京大学等
International Institute for Digital Humanities, University of Tokyo, etc.
検索機能の高度化に係る総合的研究 Comprehensive Research into Improving Database Search Functions
研究期間:平成27(2015)年度~
国立情報学研究所、人文学オープンデータ共同利用センター
National Institute of Informatics, Center for Open Data in the Humanities
研究メンバー:大山敬三(国立情報学研究所 教授)、北本朝展(人文学オープンデータ共同利用センター・センター長)、佐藤真一(国立情報学研究所 教授)、松井勇佑(国立情報学研究所 特任研究員)
歴史的典籍画像の利活用を一層促進するため、タグ付けによらない検索機能の高度化(画像検索機能の導入等)に取り組む。「①タグ付けによらない検索機能の高度化に関する基礎的研究(主として画像検索)」及び「②先進性の高いシステム構築に基づくデータ配付に関する研究」の2つのテーマに重点を絞って実施する。①は、人の感性といったレベルではなく、コンピュータが得意とする技術を活用して「刷りの年代順の確定」や「本文異同の確定」を自動的に判断するシステムの研究開発をする。また、②は、オープン化した古典籍画像及び書誌データを、研究者等が利活用しやすいよう検索機能とダウンロードシステムの高度化を図る。
「新古典籍総合目録データベース」のマルチリンガル化対応のための基礎研究
Fundamental Research towards a Multilingual 'New Glossary for the Pre-modern Japanese Texts Database'
研究期間:平成27(2015)年度~
立命館大学
Ritsumeikan University
研究メンバー:赤間亮(文学部 教授)、前田亮(情報理工学部 教授)、バトジャルガル ビルゲサイハン(専門研究員)
国文学研究資料館では、「日本語の歴史的典籍の国際共同研究ネットワーク構築計画」を、2013年度から進めている。この計画では、歴史的典籍画像30万点をWEB上に公開することで、日本研究に新しい地平を築いていこうとするものであるが、とりわけ、歴史的典籍を活用して、国際共同研究を促進するのが大きな課題となっている。
この研究計画の基盤システムとしては、「古典籍総合目録データベース」がある。このデータベースは、『国書総目録』(岩波書店)全8冊を元にして、江戸時代以前(1868年以前)に日本で成立した古典籍を網羅的に目録化したものであり、古典籍の書誌・所在・翻刻や複製の有無などの情報から、国文学研究資料館が独自に進めてきた"日本古典資料調査"や"マイクロフィルム化"および"デジタル画像化"の成果を統合する形で、成長を遂げており、今回の計画においても、根幹に位置するシステムとなっている。
しかしながら、当該データベースは、もともと非常に専門性の高い内容を日本語でのみ記述したものであり、国際共同研究ネットワークを構築する上では、多言語対応がきわめて難しい内容のデータベースとなっている。
そこで、本共同研究では、このデータベースを多言語化するにはどのような手法が最も適当かというきわめて重要な課題を解決すべく、当該データベースのあるべき理想像を先行する形で、実験的データベースを構築し、さまざまな試行錯誤を繰返すことで、本体にあたる「古典籍総合目録データベース」の次期バージョンアップに入れるべき機能や追加システムを提案するものである。
「日本語の歴史的典籍の国際共同研究ネットワーク構築計画」における典籍の全文テキスト化に関する共同研究
Collaborative Research to Convert into Text All Images Gathered by the 'Project to Build an International Collaborative Research Network for Pre-modern Japanese Texts'
研究期間:平成26(2014)年度~
凸版印刷株式会社
TOPPAN PRINTING CO.,LDT.
- 【研究報告】
- 古典籍翻刻の省力化:くずし字を含む新方式OCR技術の開発
古文書および古典籍を対象とした、ブックスキャナの開発に関する共同研究
Collaborative Research toward the Development of a Book Scanner for Old Documents and Pre-modern Japanese Texts
研究期間:平成27(2015)年度~
株式会社PFU
PFU LIMITED
典籍画像からのテキスト化とキーワード抽出に関する研究
Research into the Conversion of Images into Text and the Detection of Keywords within that Text
研究期間:平成27(2015)年度~平成29(2017)年度終了
公立はこだて未来大学
Future University-Hakodate
研究メンバー:寺沢 憲吾(情報アーキテクチャ学科 准教授)
歴史的典籍画像には、文字だけでは知ることのできない多様な情報が数多く含まれており、人文学の枠を超え、自然科学系の諸分野においても、画像情報を活用した新たな研究が期待されている。歴史的典籍画像が研究に利活用されるためには、検索機能の高度化が必須であり、タグ付けの充実が求められている。また、タグ付けによらない検索、絵検索も求められている。
タグ付け作業は、現在、研究者が本文を読みながら行っているが、多大な時間と労力を要する作業である。タグ付け作業の効率化について、ある特定分野の資料を集め、そこから半自動的に頻出キーワードを抽出し、それにもとづき研究者がタグと認定することで、タグ付け作業を機械的に行える可能性について検討する。本共同研究の研究代表者である寺沢の「文書画像検索システム(画像の形から類似の形を抽出可能なシステム)」を応用することで、タグ付け作業の一部を機械化し、作業の効率化を目指す。また、システム情報科学分野の研究者と人文社会系の研究者との異分野融合的な共同研究として、新たな研究の展開を見いだしていきたい。そこから絵検索、更にテキスト認識などの実装まで行ければと考えている。
古典籍画像を対象としたメタデータ記述/アノテーションに関する研究
Research into Recording Metadata/Annotation for Images of Pre-modern Texts
研究期間:平成27(2015)年度~平成28(2016)年度終了
一橋大学、慶應義塾大学
Hitotsubashi University, Keio University
研究メンバー:林正治(一橋大学 情報基盤センター 助教 → 国立情報学研究所 サイバーセキュリティ研究開発センター 特任助教[2016.12~])、夏目琢史(一橋大学 附属図書館 助教)、赤木完爾(慶應義塾大学 メディアセンター 所長)
本研究ではウェブに分散して公開された古典籍画像に対する統合アノテーション/プレゼンテーションを可能にするメタデータ記述モデルの開発とその実証実験を目的とする。具体的には次の3つの課題―1.異なる複数機関に所蔵された古典籍画像に対するアノテーション/プレゼンテーションを可能にする機関横断的な統合システムの実現、2.古典籍画像のファイル形式やサイズに依存しない共有可能なアノテーション/プレゼンテーションモデルの実現、3.古典籍画像に対するアノテーション永続性問題、の解決に取り組む。分散した画像に対するメタデータ(基本アノテーション)にもとづき,半自動的なプレゼンテーション生成を可能とするとともに、そのプレゼンテーションシステムを通して第三者による追加アノテーションやその共有・再利用を容易にするものである。また、アノテーションモデルにはW3C Annotation Working Groupが標準化を進めようとしているOpen Annotation Data Modelをベースに、開発することを計画している。これにより、特定のクライアント、サーバ、アプリケーションに非依存の、汎用的でオープンなモデルの構築を実現できる。本モデルの実証実験としては、統合システムによる幸田成友(1873-1954)の旧蔵書「幸田文庫」の再現という形で、纏まった形での成果となりうるものを計画している。現在、「幸田文庫」は慶應義塾大学と一橋大学の2機関に分散所蔵されており、泣き別れ状態となっている。本統合システムを応用することで、2機関に分散所蔵された「幸田文庫」から仮想的な統合「幸田文庫」を実現するとともに、前述の3つの課題に対する本モデルの有効性を検証することとする。なおその成果発信の場として、国文研の「日本語の歴史的典籍の国際共同研究ネットワーク構築計画」でのDBを視野に置いたものである。