青空文庫のテキスト構造を読む
人文情報学による試み
鈴木親彦
東京大学大学院人文社会系研究科
博士課程
 発表概要
 対象:青空文庫について
 方法:人文情報学、知の構造化について
 分析:MIMA Searchを用いた解析と解釈
 まとめ
2
構成
概要 対象 方法 分析 まとめ
 目的:青空文庫の構造を知る
 青空文庫はどのようなテキスト空間か
 どのような用語的特徴、テキスト間の関係を持つか
 手法:MIMA Searchを利用
 特徴的な用語の抽出と、テキスト間の関係の可視化
 青空文庫の構造を見出す
 実験的な試みであり、手法そのものを示し議論の
俎上に載せることも目的
3
発表概要
概要 対象 方法 分析 まとめ
 株式会社トーハン出身(~2010年)
 文化資源学(人文学)、出版流通が主たる研究対象
 「ジャパンブックセンターの再評価-出版流通研究の拡張
可能性を視野に入れて」『出版研究』45号、日本出版学会、
2015年
 副専攻として人文情報学(Digital Humanities)
 デジタル・テキストが深める研究者の「読み」 Digital
Humanitiesプロジェクトの実践事例から」、日本出版学会、
2013年
4
発表者
概要 対象 方法 分析 まとめ
対象:青空文庫について
5
 1990年代後半から活動
 「誰にでもアクセスできる自由な電子本を、図書
館のようにインターネット上に集めようとする活
動」(「青空文庫早わかり」より)
 1万点を超えるテキストが電子化
 1970年代にはじまったプロジェクト・グーテンベル
ク(Project Gutenberg)のテキストが約4万6千点
 収集作業は基本的にボランティア
6
青空文庫について
概要 対象 方法 分析 まとめ
 公開テキストの活用が自由
 アプリケーションも多数開発
 i読書、i文庫、豊平文庫……
 電子書籍配信サービスでも利用
 Kindle、Kobo……
 冊子形態でも発売
 国会図書館などとの連携、OPACからの検索
7
青空文庫の活用
概要 対象 方法 分析 まとめ
8
 公開テキストの活用が自由
 アプリケーションも多数開発
 i読書、i文庫、豊平文庫……
 電子書籍配信サービスでも利用
 Kindle、Kobo……
 冊子形態でも発売
 国会図書館などとの連携、OPACからの検索
9
青空文庫の活用
概要 対象 方法 分析 まとめ
10
11
 公開テキストの活用が自由
 アプリケーションも多数開発
 i読書、i文庫、豊平文庫……
 電子書籍配信サービスでも利用
 Kindle、Kobo……
 冊子形態でも発売
 国会図書館などとの連携、OPACからの検索
12
青空文庫の活用
概要 対象 方法 分析 まとめ
 盛んな研究活用
 情報処理分野におけるテストデータとしての利用は
定着している
 人文学分野でも重要な研究資源
 ネット上で自由に利用
 日本語の出版物のテキストが1万点以上収録
 特に海外における日本研究での可能性
 組織体制も重要?
13
研究における活用
概要 対象 方法 分析 まとめ
 学問の前提からそのままの利用ができない
 メタデータの粒度
 漢字の表記や送り仮名・撥音
 マークアップの方針
 特に出典と版の違いが重要な文学研究や歴史研究
など人文学で利用するには事前の手続きが必要
 青空文庫に欠陥や問題があるのではなく、人文学
の研究に使うために生じる側面
14
人文学での利用のために
概要 対象 方法 分析 まとめ
方法:人文情報学、知の構造化
15
 人文情報学(Digital Humanities)として研究領域
が開かれている
 人文学の研究を深めるために情報技術の成果を応用
していく動き
 人文学を、デジタル時代に対応したより広い研究対
象を持つ領域として展開させる動き
 ここで利用するためにも、手続きは必要
※前掲、2013年の口頭発表
16
人文学におけるデジタル活用
概要 対象 方法 分析 まとめ
 東京大学元総長、小宮山宏が提唱した「知識の構
造化」から
 情報技術の助けを借りて知識を関連づけ整理構造化
 膨大な情報と人間の持つ情報処理能力のギャップを
埋める
 青空文庫に適用することで、全体的な構造を見る
 細かい手続きを伴う人文研究の前段階
17
「知の構造化」
概要 対象 方法 分析 まとめ
 MIMA Search(Mining Information for
Management and Acquisition Search)
 知識の構造化を引き継いだ、東京大学知の構造化
センターで美馬秀樹が中心に開発
 自然言語処理、用語抽出等のテキストマイニング機
能
 テキスト間の関係を計算、結果をネットワーク図で
示す可視化インターフェイス
18
MIMA Search
概要 対象 方法 分析 まとめ
検索窓
検索結果リスト
ファセット検索
(絞り込み検索)
クラスタビュー
(構造化グラフ)
クラスタ
クラスタラベル
19
分析:MIMA Searchを用いた
解析と解釈
20
 青空文庫のテキストデータを投入
 GitHubから簡単に入手可能
https://github.com/aozorabunko/aozorabunko
 ただしMIMA Searchの機能上長文は切り分けが必要
 1万5文字以上の作品については、「章」を単位とし
て分割投入の試み(改善の余地あり)
※データ投入に際しては、人文情報学研究所主席研究
員である永崎研宣の協力
21
MIMA Searchによる解析
概要 対象 方法 分析 まとめ
22
<div>も<p>もない……
連続<br/>や時々ある<h>系で判
断できる?
23
 キーワード:「出版社」
 広がりを確認する目的
 「一円」の巨大クラスタ
 宮武外骨の試みが出るのは面白いが、前述の切り分け問題
の結果
 「出版社」クラスタの多様性
 坂口安吾「街はふるさと」
 宮本百合子のプロレタリア文学作品
 パブリックドメインになった文芸作品の翻訳『あのときの
王子くん』
 『青空文庫ものがたり』と富田倫生による『本の未来』
24
解析結果の解釈
概要 対象 方法 分析 まとめ
25
26
 キーワード:「出版社」
 広がりを確認する目的
 「一円」の巨大クラスタ
 宮武外骨の試みが出るのは面白いが、前述の切り分け問題
の結果
 「出版社」クラスタの多様性
 坂口安吾「街はふるさと」
 宮本百合子のプロレタリア文学作品
 パブリックドメインになった文芸作品の翻訳『あのときの
王子くん』
 『青空文庫ものがたり』と富田倫生による『本の未来』
27
解析結果の解釈
概要 対象 方法 分析 まとめ
まとめ
28
 青空文庫の持つ多様性の確認
 しかし、当たり前の結論でもある
 本格的なテキスト構造の解明はこれから
 方法の持つ可能性、方向性、出版研究へ開く?
 複数の課題
 作者ごとの作品検索
 テキスト投入方法、TEIの採用?
 キーワードの選定
29
まとめ
概要 対象 方法 分析 まとめ
ご清聴
ありがとうございました
鈴木 親彦
chikahiko80szk@gmail.com

青空文庫のテキスト構造を読む-