2025.06.28
3ユニット合同シンポジウム・ディスカッション記録
2025年3月21日に「異分野融合による総合書物学の拡張的研究」の3ユニット合同シンポジウムが開催されました(開催概要はこちら)。各ユニット(国文学研究資料館、国立歴史民俗博物館、国立国語研究所)の活動報告と、連携テーマ「書物のデジタル化における日本語の文字列」についての各発表ののち、全体ディスカッションが行われました。
ここでは全体ディスカッションの記録を掲載します。
ディスカッサント:木越俊介(国文学研究資料館)、小倉慈司(国立歴史民俗博物館)、高田智和(国立国語研究所)
コーディネーター:神作研一(国文学研究資料館)
神作:お待たせしました。では定刻ですので、再開いたします。
冒頭で木越代表から皆さまにアナウンスがございましたように、この総合書物学は、法人第4期(2022~27年度)の6年間、歴博の小倉先生を代表とするユニット、国語研の高田先生を代表とするユニット、そして国文研は木越先生を代表とするユニット、この3つのユニットで進めております。
最初に、それぞれのユニット代表の先生方から、先ほどの若手中堅の発表を踏まえて大きな視点からおまとめいただき、それを承けて、ユニット同士で議論しましょう。その上で、フロアからさまざまな御意見を頂戴したく存じます。
では、まず木越先生に口火を切っていただきます。
木越:はい。本日は御発表をありがとうございました。大変刺激になりました。拝聴して感じたのは、作業の効率化という問題です。どこまでを機械にやらせて、どこから人間が関わるのか。プロジェクトは期限付きなので、その辺りを見極めることが大切だし、難しい問題なんだなと感じました。これが1点めです。
2点目は、構築するシステムのレベルの問題で、北本先生の製作モデルをミドルモデルとすると、あえて普及版(ローエンドなもの)を作っていくという手もあるかなと思っています。
神作:木越先生、ありがとうございます。では小倉先生、お願いいたします。
小倉:本日はこういう機会を設けていただきまして、ありがとうございました。
最初に、頂戴した質問に関してちょっと補足しておきます。
まず、資料の翻刻。これはやはり最初に全巻をきちんとやった上で細部に対応していくべきなのですが、情報学的な考え方からすると現状を示すことも大事なのかな、と感じた次第です。
それから版本の刊・印・修の話。版本研究は不十分なので、今は写本中心に研究を進めていますが、確かな研究成果としては、従来はっきりとは分かっていなかった一番最初の正保版本を確定できたことです。
データベースに関しても、検索の高度化を進める必要を感じています。
文字の判読も、画像の精度が上がってくればさらに向上していくと思います。
神作:ありがとうございます。では高田先生、お願いいたします。
高田:はい。本日このような機会をいただき、大変ありがたいと思っています。他のユニットの様子も詳しく伺えて、私も大変勉強になりました。
私たちは、現在「辞書の見出し」(語彙)に特化してやっています。多くの伝本の中から任意の1本を選んで、対象とします。検証可能な状態で使える画像が今後増えてくれば、作業環境も向上してゆくでしょう。
もう一つは文字の問題ですが、異体字は別の部門が取り組んでいます。
神作:先生方、ありがとうございます。それぞれに固有の課題ももちろんありますが、一方で共通する問題(ルビや異体字の処理)もありますね。そこに、人材と学力と財力が絡み合います。
では、ここでフロアから、ユニット代表の3人の先生方に御意見や御質問をお寄せいただきます。まず、顔貌コレクションを作られた鈴木親彦先生、いかがですか。
鈴木:はい。群馬県立女子大学の鈴木でございます。ありがとうございます。
古典籍等から顔の画像を集めた顔貌コレクションを構築した経験から申しますと、何を扱うかを考える初動時が非常に重要だと思います。そしてもう一つは、使用する側の意識を想像することが大切です。
神作:どうもありがとうございます。いかがでしょう、今の鈴木先生のサジェスチョンに関して、木越さん。
木越:はい、ありがとうございます。われわれのユニットの観点だと、普遍性というか、ユーザーが応用してくれる余地を示せるかどうか、でしょうか。
神作:木越先生、ありがとうございます。小倉先生、いかがでしょうか。ユーザー目線に立って『延喜式』がTEIで構築できれば、さまざまな広がりが生まれてくると思います。そのあたり、どんな見通しをお持ちでしょうか。
小倉:現段階ということで申しますと、共同研究メンバーには今、水産学の専家がいるので、水産学の領域で「デジタル延喜式」を使ったらどうなるかということを水産学の学会で報告していただきました。彼らはカタカナで検索することを考えます。でも現状はそれには対応できていない。こちらで先回りして、タグをつけることが必要になってきます。
神作:ありがとうございます。高田先生に伺う前に、小倉先生に質問があります。TEIに関して、歴史学の先生方はどういう風に受け止めているのでしょうか。
小倉:西洋史の研究者は積極的に取り組んでいるようですが、日本史はちょっと鈍い感じです。
神作:ありがとうございます。そりゃあ普通に読んだほうが早いですからね。
お待たせしました、高田先生、先ほどの語彙(見出し)に関して、どんなふうにオープンにしていくか、精度をどうするか、お考えをお聞かせください。
高田:デジタルデータだから紙の報告書と違って直す機会があるので、どんどん公開しながら精度を高めていくことができますね。社会貢献の課題には言語教育学の領域に働きかけています。
神作:ありがとうございます。
今日はフロアに西洋書誌学の専家である安形先生がおられるので、コメントをお願いできますか。
安形:私自身は大きなプロジェクトではなく個人で、ずっとグーテンベルク聖書の活字分析を続けています。
公開する精度の問題は永遠の課題ですね。それと印刷上のアクシデントも研究上の手掛かりを摑む大事な機会だと思います。
西洋の本の場合、特に異形活字への差し替えや、行末の活字が下の行に落ち込んだりズレたりすることがありますが、そういうものはクラスタリングでまとめ過ぎないほうがいいんです。余地をどのくらい示せるかどうかが大切かと考えます。
神作:ありがとうございます。木越先生がいつも「トライ・アンド・エラー」をたくさんしようよって、研究会のたびにみんなに声を掛けてくれています。余白の大切さの御指摘。ありがとうございます。
では次は日本でTEIを牽引されている慶應義塾大学の永崎先生、よろしくお願いいたします。
永崎: TEIは、いろんな形で書くことができて、書いたものを他の人がうまく使えるように、そして、後になってもうまく使えるように、というのが基本的な大事なポイントであって、複雑な資料を作ることだけが目的ではありません。複雑な資料を作ることはできますが、複雑でない資料でもとにかくTEIに準拠して書いておけば、われわれが残したい情報をきちんと残せることを目指したものです。
というのは、一般に、コンピューターに入力したデータは、ソフトが変わったら使えなくなったり、データベースが変わったらこれまでのデータが見えなくなるなど、システムが変わるたびにいろいろ理不尽なことが起きるわけです。そういう理不尽を避けるために、みんなで使える、無料で使える共通のフォーマットとして定められているものがTEIですので、難しいものでなくてもTEIで作って何の問題もありません。
数年前にケンブリッジ大学図書館のデジタル部門長を国文学研究資料館にご紹介して講演をしていただいたことがありましたが、ケンブリッジ大学図書館はまさにそういう方向で、難しくないけど、でもTEIで記述しておくことでシステムが変わっても大丈夫なようにするという方向で、TEIを全面的に採用しています。
一方で、神作先生がおっしゃった、『源氏物語』のTEI化がいつまでも終わらない、という件は、なかなか興味深いお話かと思います。まず、終わったかどうかというのがそもそも判定が難しいわけです。『源氏物語』は写本が無数にありますので、その全ての写本を全て確認して校異情報を集めるということになったら、絶対終わりません。これはどのテキストでも多かれ少なかれそういう面があると思います。一方で、例えば『校異源氏物語』や『源氏物語大成』など、いわゆる活字で出ているものをTEIにする、あるいはその後加藤先生が出された校異注も含めて行なうということを考えてみましょう。
活字で出ているものの場合は、作業時間の計算がある程度できます。現時点では、校異源氏物語に校異情報を付与する作業をボランティアで数年かけて取り組んで、桐壺だけようやく終わったところなんですが、これは本当に無償のボランティアでやってましたので、週2時間だけ、集まった人たちでちょっとやってみたり、あるいは授業で少しだけ教えたからその中の1回分だけ練習としてやってみるとか、そういうものを集めた結果として数年かけて桐壺ができたというような話です。
これは、私が集中してやると1ページ2時間で終わる作業ですので、1ページ2~3時間で終わる作業を『源氏物語』全体で割って、活字ですから崩し字を読めなくてもできますから、活字が読めて、ちょっとタグ付けができる人を集めて作業してもらえばできるということになりますので、日本文学研究者じゃなくても作業できる話になります。ですから、例えば国文研できちんと計画立てて予算付けてくださったら外注でもできる話になります。それで校異源氏物語と、それから加藤先生の注と合わせたものをリリースするっていうことは、すごく現実的に、具体的に可能だと思っております。あとは進捗管理さえ誰かがしてくれればよいということになります。
しかし、これを現在国書データベースでも既に大量に公開されている写本とリンクしようという話になると、途端にちょっと難しくなってきます。
そのように、でも『源氏物語』の場合は、活字になっていてある程度信頼ができるテキストが権利関係において自由なのでそういうことが可能ですが、他の多くの文学作品は、まだ自由に使うことが難しいテキストが多いので。そうすると写本から、一から文字起こしし直さないとうまく公開できるものにならない可能性が高い。
ですので、権利関係の問題をどうするのかというところがやはりすごく難しい。一から翻刻するのか。一から翻刻ということになると、もう研究者でないとできないので、そこをどういうふうにするかというのが、これからの大きな課題です。皆さんもまさにそこで苦しんでおられるところかと思います。つまり、TEI以前にテキストデータです。岩波の旧大系も結局公開停止になってしまって、これ、岩波さんとどなたかもっと交渉できないものだろうかとすごく思うところなのですが、あれではもう商売しないと思いますので、そこら辺も含めてちょっと何かしていただけないものかと思うところです。
とにかく国文学は日本の人文学の中でも最大級の勢力であって、国文学の皆さんが頑張ってくださらないと日本の人文学は立ち行かなくなってしまいますので、ぜひ頑張っていただければと思っております。私のほうも何かできることはなるべくお手伝いできればと思っているところでございますので、そのような感じでちょっといろいろ申し上げてしまいました。
あともう一つ、読みを定める難しさや、書誌学における用語の統一の難しさの問題につきましては、コンピューター業界ではすごく分かりやすい解決の仕方がありまして「名前空間」と呼んでいます。
つまり、あの人たちはこう読むが、この人たちはこう読む、というふうに、それぞれのグループごとに同じものに対しても名前の付け方を変える。あるいは、グルーピングが少々違っていたとしても、とにかく名前空間を区別することによって、例えばこっちの用語を使っている人たちとあっちの用語を使ってる人たちと切り替えられる。それぞれの一連の用語セットをきちんと用意して、それぞれ適用できるようにしておく。名前空間の区別といって非常に有用だと思いますので、そこはぜひご検討いただけたらと思っております。
その点、書誌学用語に関しては、名前空間でうまく区別できないだろうかということを、いろいろ検討しているところで、何かうまい提案ができればと思って準備をしているところです。以上です。長くなって申し訳ありませんでした。
神作:ありがとうございます。確かに仰せのとおりで、権利関係の処理は私たち素人にはなかなか難しい。人間文化研究機構で組織的に対応していくべき大事な問題でしょう。
そろそろまとめに入ります。ついては木越先生、3つのユニットにはそれぞれの学問のディシプリンがあるのでそれらは措き、3つのユニットを統括するリーダーとしてどんな将来を見据えているのか、その展望を少しお話しくださいますか。
木越:はい。今日、3つのユニットそれぞれの活動を確認し合えたことで、共通理解も進んだと実感しています。
1つは教育面(人材育成)のことです。総合研究大学院大学で「総合書物論」という授業を開設していまして、私たちの試行錯誤のプロセスを含めて大学院生たちと共有していきます。
もう1つは異分野の先生方との協業の仕方です。この3年で認識を深めたのは、特に情報学の先生方とやる時は遠慮せずにリクエストすることが大切なのだということを学びました。
神作:ありがとうございます。では小倉先生、高田先生からもひと言、お願いします。
小倉:私どもの『延喜式』のプロジェクトは、なかなか苦労も多いのですが、当面の目標としては、翻刻をすべて完了させることです。本当の勝負はそのあとなのでしょう。
神作:ありがとうございます。
高田:私のほうの「語彙」は、他の語彙資源と結ぶというのがテーマです。形態素解析辞書Unidicの形態素IDで繋げて、一定の客観性を持って数値を示せる状況にしたいと思っています。
神作:どうもありがとうございます。
今日、会場で聞いてくださった皆さまはよくよく感じられたと思いますが、現在はそれぞれのユニットが試行錯誤を重ねている段階です。それを、今日発表してくださった若手や中堅たちの先生方と一緒に経験を重ねていきたいと思っています。
年度末の公務繁多の折りにも拘わらず御参集くださいましたことに、改めて心から御礼を申し上げます。本日はまことにありがとうございました。