Ksws3rd nagao keynote(20101218)

知識共有コミュニティワークショップ
2010年12月18日
於龍谷大学深草キャンパス

大規模デジタル情報の
知識構造化と検索

国立国会図書館長
長尾真

1

Ⅰ データベースの時代から任意情報
のアーカイビングの時代へ

2

定形の表形式のデータ
• 4半世紀前はデータベースの盛んな時代
• 関係データモデルが典型
• OPAC（on-line public access catalogue）は
図書の書誌データ（メタデータ）
• OCLCは全世界の主要な図書館のOPAC
7億件以上を集め、所在検索などを全世
界に提供
• NDLは約1600万件をサービス 3

非定形のデータのアーカイビング

• Googleのe-bookデータベース
• Web情報のアーカイビング
• World Digital Library
• NDLの近代デジタルライブラリー，等
• 文化系諸学のデータは非定型のもの
が多い
4

ディジタル人文学研究

• 古文書のディジタル・イメージ・データ
ベース
• 古文書の文字化されたデータベースを
イメージデータベースとリンクし、どちら
も比較して見れるようにする。
• 種々の人文学関係のテキストに相互関
係をつける。
5

情報データベースの重要な点

• 不完全なデータベースは利用されない
（存在価値がない）
• このデータベースを検索して出てこなけ
れば他のどこにもない、という信頼を与え
るデータベースが大切
• 一極集中の弊害が現れるので、中立機
関が透明性の高いデータベース運用を
することが大切 6

Ⅱ 大規模データ集積と
研究方法の変化

7

50年前の学問的方法論

• 50年前の学問は、モデルや法則を頭の
中で考え、これを実際のデータで検証
してその妥当性を主張した（top-down
approach）。
• 学問の根幹を与える法則についてはそ
れでよかった（第1次近似の世界）。

8

• 今日学問は専門分化し、第2次近似の
法則（狭い専門分野でのみ成り立つ法
則）では満足できない時代に入って来
た。

9

今日の学問に要求されること
• 今日の学問は単純な法則では説明でき
ない微妙な事象も取り扱えねばならない
（第3次近似の世界）
• そこには安定的な法則は存在しないと
いった世界である
• 個々の事象を収集し、それを参照する
ことが必要となる（bottom-up approach）
10

• data-driven science の誕生
• 社会学、人文学においては確たる法則
はないから、特に事象データの蓄積と
分析が大切

11

荒い近似巨大事象データ
一でベースの必要性
つき
のる
法
則事
が象
適の
用数
精密な近似
少数必要な法則の数多数

事象の説明の近似度と法則の数の関係
12

大規模データの活用と
検索システム

• ぼう大な事象が蓄積され、それが活用
されるためには事象の情報を取り出す
検索システムがキーとなる。
• 検索対象について予備知識があまりな
い人が検索することを考える。

13

• Webサイト情報のように全く不定形な情
報の検索をどうするか（NDLではダブリン
コアをメタデータとして付けている）
• 種々の観点（aspect）からの検索が必要

14

大規模データ、活用システムの
公開と共有

• 大規模データを公開し、誰もが利用で
きる環境を作る
• 大規模データの解析を行い、クラスタリ
ング、分類、シソーラス体系の整備、
種々の固有名詞の典拠データベース
等の整備が必要
15

• これらの処理をするためのソフトウェア
の開発、共有が必要

16

大規模データベースの例

• テキストデータベース
・・・・・・・・・・・・・・
• 画像データベース
手書き文字、指紋、人の顔、着物の柄・・・
• 音声データベース
• ・・・・・・
17

Web等の大規模テキストコーパス
• 東大喜連川研文科省e-Societyプロジェクト(2003～2007)+
「多メディアWeb解析基盤の構築及び社会分析ソフトウェ
アの開発」(2009～2012)
– 過去10年以上約160億ページのアーカイブ
• 国立国会図書館「インターネット資料収集保存事業」
(2010～)
– 日本国内の公的機関のWebページを中心とした収集・保存
• 京大黒橋研科研特定領域「情報爆発」 TSUBAKI
– 約1億日本語Webページについて文区切り判定，形態素・構文
解析，単語および係り受けインデクシング．API等で無制限に取
得可能
• ヤフー株式会社「Yahoo!知恵袋」コーパス
– 約300万質問数，約1300万回答
• 楽天株式会社データ
– 楽天市場の約5000万商品データ，楽天トラベルの1,468施設の
レビューデータ，楽天ゴルフの1,669施設のレビューデータ

Ⅲ 自然言語処理における
研究方法の変化

19

理論言語学の限界

• 構造言語学（ブルームフィールド）は形
態素レベルの言語学としては成功。局
所現象のため多様性が限られている。

20

• 句構造言語学（チョムスキー）は文法
レベルではある程度成功。文という少
し広い範囲のため多様性が増え全て
を見わたせず、現実の文章の解析に
は必ずしも成功していない。
• 意味や活用論で有効な理論はない。

21

文法主導機械翻訳

• 機械翻訳は文法による文解析を行い、
これを目的言語の文構造に移し、文の
生成をする方式である。
• 文法が不完全であり、言語構造の言語
間対応も安定せず、この方式は良い質
の翻訳を与えない。

22

用例主導機械翻訳
• ぼう大な数の比較的短い対訳言語表
現を記憶しておき、入力文をこれらの
対訳表現の組み合せによって目的言
語の表現に移す方式が用例主導機械
翻訳である。比較的質の良い翻訳を与
える。
• 対訳言語表現の辞書は数十万から数
百万の大きさとなるだろう。
23

テキストコーパスの構築

• 著作権法の改正によって言語の性質を
調べたりする研究目的には許諾なく他
人の電子テキストを利用できる。
• Internet 上のテキストを何億文と集め
て解析し言語の性質を調べたり、辞書
を作ったりできる。

24

コーパスサイズ増加にともなう
言語処理の高度化
1.0
構文解析の精度
0.9
0.8
格解析の精度
0.7
精
度
・ 0.6
カ
バ 0.5
レ格フレームの
ッ
ジ 0.4
カバレッジ
0.3
0.2 省略解析の精度

0.1
同義述語認識の精度
京都大学
黒橋禎夫教授に 0.0
よる 1.6M 6.3M 25M 100M 400M 1.6G
コーパスサイズ（文数）

ALAGIN Forum
A-1. 文脈類似語データベース（Version 1.1）
A-2. 動詞含意関係データベース（Version 1.2.0）
A-3. 負担・トラブル表現リスト（Version 1）
A-4. 上位語階層データ（Version 1）
A-5. 単語共起頻度データベース（Version 1）
A-6. 日本語パターン言い換えデータベース（Version 1）
A-7. 日本語異表記対データベース（Version 1.1）
A-8. 日本語係り受けデータベース（Version 1）
A-9. 基本的意味関係の事例ベース (Version 1)
C-2. 係り受け解析システム（CNP）用中国語解析モデル（
簡易形態素解析器付き）
D-1. カスタム単語集合作成サポートサービス

GSK（言語資源協会）
• 辞書
– GSK地名施設名辞書
– 京都大学格フレーム(Ver 1.0)
– GSK配布版「計算機用日本語基本辞書ＩＰＡＬ」
– CICC多言語辞書
• コーパス
– 甲南大学-教育測定研究所 Konan-JIEM Learner Corpus
– 甲南大学こどもコーパス
– 岩波国語辞典第五版タグ付きコーパス2004
– 新聞記事GDAコーパス2004
– CASTEL/J CD-ROM V1.5
– JEITAマルチモーダル対話コーパス
– Web日本語Nグラム第1版

Ⅳ 電子図書館の構築

28

図書館は知識の集積場

• 国立国会図書館（NDL）は世界有数の
大規模図書館である。
• 図書 920万冊、雑誌 810万冊、新聞
375万点、音盤 55万点、画像・映像 21
万点、その他1300万点、総計3500万冊
• 著作権法の改正によってNDLは許諾な
く出版物のディジタル化が可能となった。
29

国立国会図書館の電子図書館事業
インターネットを通じて、「どこでも、いつでも、
だれでも」利用できる図書館サービスの実現

資料の検索資料の提供
資料の案内国会情報
（二次情報）（一次情報）

NDL-OPAC、児童 WARP、近代デジレファレンス協同国会会議録検索
書総合目録、アジタルライブラリー、データベース、システム、日本法
ア言語OPAC、総児童書デジタルテーマ別調べ方令索引 etc
合目録 etc ライブラリー etc 案内、PORTA etc

30

国立国会図書館の「電子図書館サービス」の目標イメージ
日本のウェブサイト電子雑誌、電子書籍等
官公庁
学術
地域

文化
公的機関
公的機関、
企業サイトの収集民間の
著作物単位の収集
アーカイブ
登録、保存図書館の
アーカイブ
著作単位の
ウェブサイアーカイブ
ト単位の WARP
国立国会図書館アーカイブデジタルアーカイブ
デジタルアーカイブポータル
ナレッジ
• 統合検索
データベー
ス
デジタル化コンテンツ
発信 • コンテンツへジャン
プ
資料に関する知識 • 情報入手先の案内
NDL- (近代デジタルライブラリー

組織化 OPAC 貴重書データベース等）
インターネット

デジタル化
学校
31
職場自宅

NDLにおける電子化の現状
1860 1870 1880 1890 1900 1910 1920 1930 1940 1945 1950 1955 1960 1965 1970 1975 1980 1985 1990 1995 2000

時代江戸期以前明治大正昭和前期昭和戦後平成

1,000タイトル
貴重書貴重書画像
等
データベース
古典籍 58,000冊
資料（インターネット提供）

その他

近代デジタル
昭和前期戦後期刊行図書
ライブラリー大刊行図書（1945～1968年）
（インターネット提供）正
期 313,000冊
図書明治・大正期刊行 332,000冊
図書
170,000 冊
戦前期
未撮影分

国内刊行雑誌
12,000タイトル（～2000年）

博士論文 140,000タイトル

官報 1,000冊（1883-1952）

: インターネット提供中
国内図書の約1/5（約89万冊）
: インターネット提供予定（戦前期刊行図書、博士論文は著作権処理）
が終了見込
: 館内提供予定 32
32

電子書籍の構造化と検索
• 電子書籍は目次や索引によって構造化することができる。

出典：長尾真『情報を読む力、学問する
心』ミネルヴァ書房 2010年 p.137
33

• 電子書籍に対しては種々の検索をすることが
できる。検索出力の単位は書物、書物の章や
節あるいはパラグラフなど任意の単位となる。
検索対象取り出し対象
抽
象表題書誌検索本
化その他
書誌的事項
レ
ベ目次目次検索章、節、項など
ル

抄録抄録検索抄録、本

本文テキスト全文検索パラグラフ、数行

索引索引検索ページ、パラグラフ
書物の構造 34

Ⅴ 知識システムの構築

知識社会の時代
• 物の時代から情報の時代へ

• 量から質の時代へ

• 知識が富を生み出す

• 製造から、設計、世界標準、知的所有権へ
36

知的活動に集中する

• 地球環境、エネルギー、資源、廃棄物、
人口減少などの問題を抱える中で、日
本が生産性を上げ、世界のトップグル
ープに残るためには知的労働に集中す
ることが必要。

37

• 情報価値、知識付加価値の高いものに
集中すること（企画、設計、先端技術、
知識産業、情報産業、コンテンツ産業、
メディア産業、芸術、など）。
• そのために情報の網羅的収集が必要。

38

新しいメディア文化財についての課題
• 本以外の情報メディアの重要性。
写真、地図、パンフレット、・・・
演説、語り、歌謡、音楽、・・・
CD、DVD、TV、映画フィルム、・・・
• これらのうち、パンフレット、CD、DVD、TV等は
公共的立場からの本格的な長期保存の目的
でのアーカイブはほとんどなされていない。
• TVプログラムなどは台本テキストと対にして
保存することが大切。
39

他の文化財のディジタル保存
• 絵画のディジタル化と保存・再生（美術館）
• ３次元物体のディジタル計測と再現（博物館）
• 遺跡のディジタル記録と再現（東大池内克史
教授）
• 無形文化財（たとえば踊り）の３次元記録と再
現（京大松山隆司教授）
• インターネット上の情報の保存

40

ディジタル情報の保存における課題
• 各種メディア情報におけるメタデータ、データ
の国際的標準フォーマットの設定
• オフライン媒体での保存では何年かすると媒
体が変質したり、また再生機器がなくなる可
能性がある。
• オンライン媒体での保存では、数年ごとに機
器の更新とデータの移行を行わねばならず、
その経費は高い。
• 何百年も変化しないオフライン記憶媒体の開
発が必要である。 41

知識インフラの必要性

• 知識の拡大再生産のためには、知識
の創造と集積・流通・活用のサイクル
の構築が必要。
• 課題解決型の研究には様々な学問分
野がかかわるシステム的アプローチが
必要。

42

• 課題を設定するためには、その課題に
ついてこれまでどのような研究がなさ
れて来たか、何が未解決か、イノベー
ションをおこせる可能性があるか、社会
に対するインパクトはどうなりそうか等
を調べねばならない。

43

知の共有化
• 多くの分野がかかわるシステム的課題の
場合、理工系の研究者だけでなく、政策立
案者、人文社会系の研究者や市民もが調
査してアセスメントができる環境を作る必
要がある。
• あらゆる学問の成果は当然のこと、企業社
会、人間社会、自然社会等の知識・情報を
収集整理し、自由に利用できるようにしな
ければならない。
44

知識インフラの構造
• 研究情報基盤の整備が謳われてきたが、
通信ネットワークが中心であった。
• 必要なものは学術情報コンテンツ、知識コ
ンテンツの組織的な整備である。
• 分野を超えた知識の関連付けが必要である。
• 日本中に散在するコンテンツをクラウドに移
し、そこに検索をかければ関連する全ての
必要なコンテンツが得られるようにする。
45

• 知識は関連するものが有機的に結合され、
ネットワーク的に統合化されたもの（単に情
報を集めたものではない）である。
• 日本中にある人文社会科学を含んだあら
ゆる学問・研究のコンテンツ、数値データ、
研究データ、研究ツール、社会状況データ
等が知識の形に組織化される必要がある。
• 諸外国の同様なシステムとリンクがとれる
必要がある。
46

理想の電子図書館
• 書物が解体され、必要な部分だけが取り
出されて使われるような検索方式。

• 関連する知識情報がリンクされて取り出せ
る知識構造。

• 知識インフラの各拠点がこのような知識構
造になっていて、横断的に取り出せること。

知識ネットワークの構築

• 全ての書籍を部品に解体し、種々の因果
関係によって部品同士をリンクすること
ができる。
• 因果関係としては同義/類似関係、反義
関係、上位下位関係、原因結果関係、全
体・部分関係などいろいろのものが考え
られる。
48

• こうして電子図書館を人間の頭脳内の
記憶のように知識のシステムの形に構
成することができるだろう。
• 連想機能をもつ種々の検索システムに
よって必要とする情報・知識を取り出せ
るようになるだろう。
• この知識システムは一種の百科辞典と
みることもでき、これに検索質問を出す
ことによって書誌情報でなく質問に対す
る答が取り出せることになるだろう。これ
は事実検索である。 49

知識はわれらを豊かにする

Through knowledge we prosper

50

Ksws3rd nagao keynote(20101218)

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (9)

Similar to Ksws3rd nagao keynote(20101218)

Similar to Ksws3rd nagao keynote(20101218) (20)

More from 真岡本

More from 真岡本 (20)

Recently uploaded

Recently uploaded (7)