More Related Content
Similar to あんちべのすべらない話~俺のツイートがこんなにウケないはずがない~ (8)
More from antibayesian 俺がS式だ (9)
あんちべのすべらない話~俺のツイートがこんなにウケないはずがない~
- 8. 自己紹介
● ID:AntiBayesian
● あんちべ!とお呼び下さい
● 専門:テキストマイニング、自然言語処理
● 職業:某ATMが○○な銀行で金融工学研究員とか
いう胡散臭い素敵なことしてる
● 自然言語処理職大絶賛募集中!!!!
● math.empress@gmail.com
- 11. 訓練データを集めよう
● 正例:favstarから人気tweetを取得
● 負例:twitter Streaming APIから適当にサンプリン
グ
● 6月中のtweetを各々約1500件ずつチョイス
● 正例にはfav、負例にはnonタグを付ける
※Tweetを取得するツール作ったよ!
http://d.hatena.ne.jp/AntiBayesian/20110702
- 14. 訓練データの加工
ttmの紹介
● TinyTextMiner
● テキストを形態素解析に掛け、さらに分析ツールに
投げやすいよう整形してくれるフリーソフト
● ここからDL http://mtmr.jp/ttm/
※MeCabもインストールしてね
- 15. 加工済みデータ
● 1行目が各単語。2行目以降は、各文章から表頭
の単語が何回出現したか
● 右端のTAG列がクラス。fav=正例、non=負
例、test=検証するtweet。
● 要するに、testテキストがfav、nonどちらに分類さ
れるか知りたい
- 16. 予測モデルを立てよう
● RandomForestを使おう!
● 精度高いし汚いデータにも強い!Googleも利用!
● 詳細は下記ブログを参考に
http://d.hatena.ne.jp/hamadakoichi/20110130/
- 18. 精度はどう???
rf.predict <- predict(rf.model, train.data)
(result <- table(train.data$TAG, rf.predict))
● 緑色のセル=正しく分類
● 行:予測
● 列:実際
2*result[2,2] / (2*result[2,2]+result[1,2]+result[2,1])
● F値:0.9019064
※訓練データで高精度は当たり前。ただの目安
- 20. まとめ
● 人気tweetを収集し、人気tweetを判別するモデル
を作る
● 自分のtweetをモデルで評価して、ウケル内容だ
けtweetする
● これで広瀬香美や孫正義を超える人気ついっ
たったーになれる!