10月4週

今週の目標:Dictionaryファイルの適用と形態素解析ソフトの入れ替え
達成度:0%

作業時間:
10/20(木) 3時間半
10/21(金) 4時間半
10/24(月) 1時間半
10/25(火) 3時間
10/26(水) 3時間半

合計約16時間くらい

jumanとmecabの入れ替えは難しいということで
感情辞書を元に数値だけを足して割るプログラムを作成
結果と算出ツールを比べた結果、あまり大差ない結果に…。

中身としては細かい「した」「しか」などの細かい部分が該当してしまってだいたい4の値に近づいていってしまうということ。

そこで他の辞書も試してみることに。
東京工業大学高村先生の「感情極性対応表」を試してみた。
これは正の値か負の値かでネガポジを判断するものですが、
-1~1で細かい数値が割り振られているので使えるかなと思ったがこれもイマイチな様子。
(感情辞書よりはよかった)

月曜加納先生のJava講座のあと先生と相談をして
新しい感情辞書を作れないかという話に。
もう一度くらいなら研究室内や、先生にお願いして
授業でアンケートを大規模に取れないかという話と、
今感情辞書にある感情の3軸(楽悲、嬉怒、長閑緊迫)を2軸に絞れないかという話に。

その2つをまとめた時、もう一方の長閑緊迫で辞書が2つになる。
そこにアンケートとネガポジの軸をあわせて2軸にできないかと考えた。

現在ある辞書
・楽しい嬉しい⇔悲しい怒り
・長閑⇔緊迫
・ネガポジ
+アンケート

水曜に組み合わせて作るより
もはや辞書を自分で作った方が早いということで
10000ツイート形態素解析したものを以下の基準で絞り込んだ。

・名詞、動詞、形容詞、副詞のみに絞る
・非自立、接尾、固有名詞、特殊、代名詞、副詞可能、ナイ形容詞全削除
・英数字削除
・半角の文字削除
・頻出度1桁のもの削除
・2文字以下ひらがなカタカナ削除
・文頭が小さい文字で始まるもの

これらから残った1,000単語頻出度上から100個位を
選んで大規模にアンケートを取りたい。

投稿者: kame_238

Twitterに関する研究をしています。 よりいい方法などありましたら教えていただけると助かります。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です