More Related Content
Similar to Ksws3rd nagao keynote(20101218)
Similar to Ksws3rd nagao keynote(20101218) (20)
Ksws3rd nagao keynote(20101218)
- 4. 非定形のデータのアーカイビング
• Googleのe-bookデータベース
• Web情報のアーカイビング
• World Digital Library
• NDLの近代デジタルライブラリー,等
• 文化系諸学のデータは非定型のもの
が多い
4
- 12. 荒い近似 巨大事象データ
一で ベースの必要性
つ き
のる
法
則事
が象
適の
用数
精密な近似
少数 必要な法則の数 多数
事象の説明の近似度と法則の数の関係
12
- 13. 大規模データの活用と
検索システム
• ぼう大な事象が蓄積され、それが活用
されるためには事象の情報を取り出す
検索システムがキーとなる。
• 検索対象について予備知識があまりな
い人が検索することを考える。
13
- 15. 大規模データ、活用システムの
公開と共有
• 大規模データを公開し、誰もが利用で
きる環境を作る
• 大規模データの解析を行い、クラスタリ
ング、分類、シソーラス体系の整備、
種々の固有名詞の典拠データベース
等の整備が必要
15
- 18. Web等の大規模テキストコーパス
• 東大喜連川研 文科省e-Societyプロジェクト(2003~2007)+
「多メディアWeb解析基盤の構築及び社会分析ソフトウェ
アの開発」(2009~2012)
– 過去10年以上約160億ページのアーカイブ
• 国立国会図書館 「インターネット資料収集保存事業」
(2010~)
– 日本国内の公的機関のWebページを中心とした収集・保存
• 京大黒橋研 科研特定領域「情報爆発」 TSUBAKI
– 約1億日本語Webページについて文区切り判定,形態素・構文
解析,単語および係り受けインデクシング.API等で無制限に取
得可能
• ヤフー株式会社 「Yahoo!知恵袋」コーパス
– 約300万質問数,約1300万回答
• 楽天株式会社データ
– 楽天市場の約5000万商品データ,楽天トラベルの1,468施設の
レビューデータ,楽天ゴルフの1,669施設のレビューデータ
- 21. • 句構造言語学(チョムスキー)は文法
レベルではある程度成功。文という少
し広い範囲のため多様性が増え全て
を見わたせず、現実の文章の解析に
は必ずしも成功していない。
• 意味や活用論で有効な理論はない。
21
- 23. 用例主導機械翻訳
• ぼう大な数の比較的短い対訳言語表
現を記憶しておき、入力文をこれらの
対訳表現の組み合せによって目的言
語の表現に移す方式が用例主導機械
翻訳である。比較的質の良い翻訳を与
える。
• 対訳言語表現の辞書は数十万から数
百万の大きさとなるだろう。
23
- 25. コーパスサイズ増加にともなう
言語処理の高度化
1.0
構文解析の精度
0.9
0.8
格解析の精度
0.7
精
度
・ 0.6
カ
バ 0.5
レ 格フレームの
ッ
ジ 0.4
カバレッジ
0.3
0.2 省略解析の精度
0.1
同義述語認識の精度
京都大学
黒橋 禎夫教授に 0.0
よる 1.6M 6.3M 25M 100M 400M 1.6G
コーパスサイズ(文数)
- 26. ALAGIN Forum
A-1. 文脈類似語データベース (Version 1.1)
A-2. 動詞含意関係データベース (Version 1.2.0)
A-3. 負担・トラブル表現リスト (Version 1)
A-4. 上位語階層データ(Version 1)
A-5. 単語共起頻度データベース(Version 1)
A-6. 日本語パターン言い換えデータベース(Version 1)
A-7. 日本語異表記対データベース(Version 1.1)
A-8. 日本語係り受けデータベース(Version 1)
A-9. 基本的意味関係の事例ベース (Version 1)
C-2. 係り受け解析システム(CNP)用中国語解析モデル(
簡易形態素解析器付き)
D-1. カスタム単語集合作成サポートサービス
- 27. GSK(言語資源協会)
• 辞書
– GSK地名施設名辞書
– 京都大学格フレーム(Ver 1.0)
– GSK配布版「計算機用日本語基本辞書IPAL」
– CICC多言語辞書
• コーパス
– 甲南大学-教育測定研究所 Konan-JIEM Learner Corpus
– 甲南大学 こどもコーパス
– 岩波国語辞典第五版タグ付きコーパス2004
– 新聞記事GDAコーパス2004
– CASTEL/J CD-ROM V1.5
– JEITAマルチモーダル対話コーパス
– Web日本語Nグラム第1版
- 29. 図書館は知識の集積場
• 国立国会図書館(NDL)は世界有数の
大規模図書館である。
• 図書 920万冊、雑誌 810万冊、新聞
375万点、音盤 55万点、画像・映像 21
万点、その他1300万点、総計3500万冊
• 著作権法の改正によってNDLは許諾な
く出版物のディジタル化が可能となった。
29
- 31. 国立国会図書館の「電子図書館サービス」の目標イメージ
日本のウェブサイト 電子雑誌、電子書籍等
官公庁
学術
地域
文化
公的機関
公的機関、
企業 サイトの収集 民間の
著作物単位の収集
アーカイブ
登録、保存 図書館の
アーカイブ
著作単位の
ウェブサイ アーカイブ
ト単位の WARP
国立国会図書館 アーカイブ デジタルアーカイブ
デジタルアーカイブ ポータル
ナレッジ
• 統合検索
データベー
ス
デジタル化コンテンツ
発信 • コンテンツへジャン
プ
資料に関する知識 • 情報入手先の案内
NDL- (近代デジタルライブラリー
組織化 OPAC 貴重書データベース等)
インターネット
デジタル化
学校
31
職場 自宅
- 32. NDLにおける電子化の現状
1860 1870 1880 1890 1900 1910 1920 1930 1940 1945 1950 1955 1960 1965 1970 1975 1980 1985 1990 1995 2000
時代 江戸期以前 明治 大正 昭和前期 昭和戦後 平成
1,000タイトル
貴重書 貴重書画像
等
データベース
古典籍 58,000冊
資料 (インターネット提供)
その他
近代デジタル
昭和前期 戦後期刊行図書
ライブラリー 大 刊行図書 (1945~1968年)
(インターネット提供) 正
期 313,000冊
図書 明治・大正期刊行 332,000冊
図書
170,000 冊
戦前期
未撮影分
国内刊行雑誌
12,000タイトル(~2000年)
博士論文 140,000タイトル
官報 1,000冊(1883-1952)
: インターネット提供中
国内図書の約1/5(約89万冊)
: インターネット提供予定(戦前期刊行図書、博士論文は著作権処理)
が終了見込
: 館内提供予定 32
32
- 34. • 電子書籍に対しては種々の検索をすることが
できる。検索出力の単位は書物、書物の章や
節あるいはパラグラフなど任意の単位となる。
検索対象 取り出し対象
抽
象 表題 書誌検索 本
化 その他
書誌的事項
レ
ベ 目次 目次検索 章、節、項など
ル
抄録 抄録検索 抄録、本
本文テキスト 全文検索 パラグラフ、数行
索引 索引検索 ページ、パラグラフ
書物の構造 34
- 38. • 情報価値、知識付加価値の高いものに
集中すること(企画、設計、先端技術、
知識産業、情報産業、コンテンツ産業、
メディア産業、芸術、など)。
• そのために情報の網羅的収集が必要。
38
- 39. 新しいメディア文化財についての課題
• 本以外の情報メディアの重要性。
写真、地図、パンフレット、・・・
演説、語り、歌謡、音楽、・・・
CD、DVD、TV、映画フィルム、・・・
• これらのうち、パンフレット、CD、DVD、TV等は
公共的立場からの本格的な長期保存の目的
でのアーカイブはほとんどなされていない。
• TVプログラムなどは台本テキストと対にして
保存することが大切。
39
- 43. • 課題を設定するためには、その課題に
ついてこれまでどのような研究がなさ
れて来たか、何が未解決か、イノベー
ションをおこせる可能性があるか、社会
に対するインパクトはどうなりそうか等
を調べねばならない。
43
- 44. 知の共有化
• 多くの分野がかかわるシステム的課題の
場合、理工系の研究者だけでなく、政策立
案者、人文社会系の研究者や市民もが調
査してアセスメントができる環境を作る必
要がある。
• あらゆる学問の成果は当然のこと、企業社
会、人間社会、自然社会等の知識・情報を
収集整理し、自由に利用できるようにしな
ければならない。
44
- 45. 知識インフラの構造
• 研究情報基盤の整備が謳われてきたが、
通信ネットワークが中心であった。
• 必要なものは学術情報コンテンツ、知識コ
ンテンツの組織的な整備である。
• 分野を超えた知識の関連付けが必要である。
• 日本中に散在するコンテンツをクラウドに移
し、そこに検索をかければ関連する全ての
必要なコンテンツが得られるようにする。
45
- 46. • 知識は関連するものが有機的に結合され、
ネットワーク的に統合化されたもの(単に情
報を集めたものではない)である。
• 日本中にある人文社会科学を含んだあら
ゆる学問・研究のコンテンツ、数値データ、
研究データ、研究ツール、社会状況データ
等が知識の形に組織化される必要がある。
• 諸外国の同様なシステムとリンクがとれる
必要がある。
46
- 49. • こうして電子図書館を人間の頭脳内の
記憶のように知識のシステムの形に構
成することができるだろう。
• 連想機能をもつ種々の検索システムに
よって必要とする情報・知識を取り出せ
るようになるだろう。
• この知識システムは一種の百科辞典と
みることもでき、これに検索質問を出す
ことによって書誌情報でなく質問に対す
る答が取り出せることになるだろう。これ
は事実検索である。 49