10月21日(金)

作業時間:4時間半
内容:感情値を算出するプログラムの作成とそれに伴うもろもろ

感情値算出ツールの算出方法がブラックボックスということで
感情辞書のみを使って感情値を算出するプログラム(テキストに一致する単語を引っ張ってくる、そして感情値の合計値/該当件数を出すもの)をまた加納先生にやってもらいました。
本当毎回申し訳ないです…

そしてそのプログラムの結果と算出ツールを比べた結果、
あまり大差ない結果に…。
中身としては細かい「した」「しか」などの細かい部分が該当してしまってだいたい4の値に近づいていってしまうということ。

そこで他の辞書も試してみることに。
東京工業大学高村先生の「感情極性対応表」を試してみた。
これは正の値か負の値かでネガポジを判断するものですが、
-1~1で細かい数値が割り振られているので使えるかなと。

とりあえずアンケートを取ったテキストでやってみると
ほぼ正しい感じだったんですが
明るいと思っていた「フォロバありがとうございます」のツイートもマイナスの値を示したためこれも微妙…
自分で辞書作るほうが早いと言われましたがたしかにそうかも…
とまで思う始末

とりあえず一個の評価基準に持っていくために残りの時間は
アンケートの値と算出値と換算値と極性対応表の値の
変換式を考えていました。
これは研究が本格的に成果出せないにおい。

次回は熊本先生の感情辞書と高村先生の極性対応表を比べて
新たな辞書をなんとか作りたいかな…とか思ってますが
辞書に固執すればするほど研究が遠ざかってます。キリない

10月20日(木)

作業時間:3時間半
内容:卒論最終テーマの決定、感情値算出ツールについての相談

感情辞書拡張に伴って形態素解析について
jumanとmecabを入れ替えるためにmecabがどうやって動いているのかを
調べた結果、パスを通したりがめんどくさいらしい

そして感情値算出ツールの中身を見た結果
jumanで形態素解析した結果を感情辞書と照らし合わせてその数値を合計して
平均値を出すものだと思っていたし実際そうだった

だがそもそも形態素解析がうまくいってなかった事が判明
(よって感情辞書と照らし合わせることができないため感情辞書は多分大半使われていないかも)

結論として感情辞書だけ使って
解析したいテキストデータと照らし合わせて
平均値を出すプログラムを考えることになりました。

10月14日(金)

作業時間:5時間
内容:感情値拡張に伴う形態素解析ソフトの辞書変更

感情辞書拡張のためにアンケートから10単語の印象値を算出したが、
楽しい⇔悲しい
嬉しい⇔怒り
長閑⇔緊迫の3軸で取らなかったので(完全に自分のミス)
とりあえず3つの辞書全部に10単語を追加した。
ここで問題となったのが感情値を当てはめる前段階の形態素解析。
形態素解析で単語がちゃんと出てこなければ当たり前のように
感情値が出てこず形態素解析ソフトをいじる必要があった。
(例:双極性障害だと双極と性と障害とバラバラになってしまう)
感情値算出ツールで使われているのはjumanだが
算出ツールの設定で適用できるかもしれないというような話と
先生にも聞きやすいということでMeCabをいじることにした。

今回選んだ10単語をCSVファイルとしユーザー辞書として追加することを試みた。
加納先生に協力してもらったおかげで辞書ファイル化には成功したが
適用されないという問題が発生した。

MeCabで形態素解析するのにはIPAという辞書が推奨されておりそれを使っていたが
最近mecab-ipadic-neologdというWeb上の言語資源から得た新語を追加することでカスタマイズした MeCab 用のシステム辞書を入れて使っていたのでそれはどのような方法で適用されているのか調べたところこっちの辞書も適用されていないことが発覚。
neologdの大元であるGithubを見ながらインストールを試みるも
うまくいかず踏んだり蹴ったりなのが今の状況。

もはやこのページを公開して判断を仰ごうとも思ってしまっているほど
というか一体自分は何を研究しているのかわからなくなってきた。
研究テーマを辞書拡張にしたいくらい。

10月13日(木)

作業時間:3時間
内容:アンケートを元に10単語の感情値決定と統計的因果推論を読む
アンケート結果
否定的(ネガティブ)
やや否定的
どちらかと言うと否定的
どちらかと言うと肯定的
やや肯定的
肯定的(ポジティブ)

に0~5の値を振り、10単語0~5の平均値を出し、
それを5分の1することで各文の印象値を出す。
単語が含まれる文1~3文分の印象値で各単語の感情値を決定した。

明日はそれを辞書化する予定。
だが各辞書を見てみると
weight_left
weight_right
の表記が。
補正をかけるための値だと思われるがこれをどう決めるかも関わる模様。

統計的因果推論に関しては
因果に関わる
原因、結果に加えて中間特性や共変量、交絡因子というものが関わってくるそう。

本研究では
原因=過度なストレスなど
結果=精神疾患にかかる
中間特性=?
共変量=うつであるか
交絡因子=もともとストレスに弱い性格

だと思われる。多分。

今日スケジュール発表のときにある人に、
「研究に関わるツイートやその感情値を出したところで
その値が研究成果に直結するものかどうかの判断はできない」
という話、研究成果に近づけるための判断として
因果という部分を足してこの研究をやっているわけだが…終わるのか…

10月12日(水)

作業時間:3時間半くらい
内容:アンケート実施とスケジュール組み直しと統計的因果推論を読む(個別ゼミ2時間)

ツイートとうつの因果に対して
一度感情値を出したものを可視化
→因果推測
→それをさらに可視化

だと自分の中で思っていましたが
絶対に可視化をしないといけないわけでもないらしく
それに伴いスケジュールを変更しました。

アンケートを実施しました。
Twitter、病気の用語や否定的肯定的の判断の仕方など色々な質問が舞い込み
アンケートも難しいものだという感じです。
18時30分現在回答者が13人なのでもう少しでとりあえずの感情値が出そうです。

統計的因果推論ちょこちょこ読んではいるのですが言葉が難しくて同じところを何度も読んで理解していこうといった感じです。

個別ゼミは今後の予定やそれについてくるであろう
気苦労など色々話して終わりました
学会は出たくないです(余談)

10月11日(火)

作業時間:4時間
内容:Googleフォームによるアンケート作成

ツイートをコピペするだけだと思っていましたが
均等目盛りにするかラジオボタンにするか
双極性障害などの用語の説明を入れないと…など
やること思ったより多くて時間がかかりました。

洋次郎や菅野さんに協力お願いして暗い明るいに関する表現の書き方や
均等目盛りではなくラジオボタンにするなど色々変更を加えてひとまずアンケートをメーリスに流しました。

10月10日(月)

作業時間:3時間
内容:アンケート作成と統計的因果推論に目を通す

アンケートは大方作成しました。
明日明後日あたり実施を予定しています。
評価の方法は0~5までの6段階評価にし、
結果の値を0~1の値に直して感情辞書にします。

統計的因果推論によると因果関係同定法には
1,一致の方法
2,付随変動の方法
3,差の方法
4,残余の方法
の4つの方法があることが分かった。