12月最終週+1月1週

今週の目標:もう少し深く分析をする,論文5章を書き始める
達成度:70%

作業時間:
12/22(木) 3時間
12/26(月) 3時間
1/5(月) 6時間
1/6(金) 6時間
1/9(月) 4時間

合計約22時間+α(書き忘れあり)

加納先生にやっていただいた論文の修正をやっていたのがほとんどです.
ですが論文も一通り書き,あとはかさ増し?肉付け?していくような作業です.

もう少し深く分析をしようと考えていたのですが,
修正に時間がかかり,やりませんでした.

ですがツールの効果を実験するため,新たなサンプルで分析をしようと思っているので,
それで肉付け+深く分析をする予定です.

来週の目標:新たにサンプルを増やして実験,論文をかききる

12月3週

今週の目標:傾向の決定
達成度:60%

作業時間:
12/15(木) 5時間半
12/16(金) 4時間半
12/19(月) 5時間
12/20(火) 4時間半
12/21(水) 4時間

合計約23時間半くらい

今週は研究室でExcelやらRやらをいじって色々な分析をしていたのですが
進展がほとんどなくいただけになってしまったような一週間でした

加納先生にデータを渡して少し見てもらったのですが
分散分析とt検定で差が見えたということで講座をやってもらって
教えてもらいました
本当ありがたいです

結果としては
NPの分散分析(平均値):ばらつきなし

NPそれぞれのt検定(平均値)
一般とうつ・・・差ある
一般と双極・・・差なし
うつと双極・・・差なし

ICの分散分析(平均値):ばらつきあり
ICそれぞれのt検定(平均値)
一般とうつ・・・差ある
一般と双極・・・差ある
うつと双極・・・差なし

となり、有効そうな結果を出すことができました

NPの3群の分散分析ではばらつきがないという結果になったのですが
t検定をやってみたところ一般とうつ群には差があるという結果になりました
これの原因がなにかも探りたいと思っています

当初の予定ではNPとICを両方使って傾向を見ようと考えていましたが
今回の分析ではそれぞれで違う傾向が出たのでそれはそれで興味深いなといった感じです(論文が終わるわけじゃないけど)

来週の目標:もう少し深く分析をする,論文5章を書き始める

11月2週

今週の目標:アンケート実施
達成度:50%

作業時間:
11/3(木) 3時間半
11/4(金) 7時間
11/5(土) 2時間
11/7(月) 4時間
11/8(火) 6時間
11/9(水) 5時間

合計約27時間半くらい

内容:アンケート作成と論文修正開始

今週はアンケートをずっと作っていた。
Googleフォームを使用しアンケートを作成した。

最初の予定からだいぶ変更し
115単語
1単語につき2ツイートを読んでもらい、
ネガ⇔ポジ
冷静⇔焦燥
の2軸で印象を答えてもらう。
ツイートはあまり深く考えすぎて時間を取らせないよう
短めの文章から無作為に抽出した。

Googleフォームもグリッドを使用する予定だったが
先生に均等目盛を使って2軸取る方法を教えてもらい
その方法で全アンケートを作成した。
個別ゼミでさらにアドバイスをいただき反映しているところです。

論文に関しては読み合わせに向けてアブストラクトがひとまず終わりました。

10月5週+11月1週

今週の目標:アンケート作成
達成度:50%

作業時間:
10/28(金) 5時間
10/31(月) 4時間
11/1(火) 3時間
11/2(水) 3時間

合計約15時間くらい

KHCoderを使用して共起ネットワークや階層的クラスター分析などを使って共起の関係にヒントがあるかと思いきや何もなく前回+頻出度10までの単語を全削除して1000単語ほどにまで絞り込めたがそこからどうやって絞り込めばいいのか方法を探索、抽出語リストを使用し単語を抜き出した。
名詞、サ変名詞、形容動詞、動詞、形容詞、副詞、形容詞Bに絞りさらに
感情と関係があると思われる語のみを抜き出し
122単語になった。

そしてアンケート用に122単語一つひとつに対するツイートを
5ツイートずつ集めていた。

来週の目標:アンケート実施

10月4週

今週の目標:Dictionaryファイルの適用と形態素解析ソフトの入れ替え
達成度:0%

作業時間:
10/20(木) 3時間半
10/21(金) 4時間半
10/24(月) 1時間半
10/25(火) 3時間
10/26(水) 3時間半

合計約16時間くらい

jumanとmecabの入れ替えは難しいということで
感情辞書を元に数値だけを足して割るプログラムを作成
結果と算出ツールを比べた結果、あまり大差ない結果に…。

中身としては細かい「した」「しか」などの細かい部分が該当してしまってだいたい4の値に近づいていってしまうということ。

そこで他の辞書も試してみることに。
東京工業大学高村先生の「感情極性対応表」を試してみた。
これは正の値か負の値かでネガポジを判断するものですが、
-1~1で細かい数値が割り振られているので使えるかなと思ったがこれもイマイチな様子。
(感情辞書よりはよかった)

月曜加納先生のJava講座のあと先生と相談をして
新しい感情辞書を作れないかという話に。
もう一度くらいなら研究室内や、先生にお願いして
授業でアンケートを大規模に取れないかという話と、
今感情辞書にある感情の3軸(楽悲、嬉怒、長閑緊迫)を2軸に絞れないかという話に。

その2つをまとめた時、もう一方の長閑緊迫で辞書が2つになる。
そこにアンケートとネガポジの軸をあわせて2軸にできないかと考えた。

現在ある辞書
・楽しい嬉しい⇔悲しい怒り
・長閑⇔緊迫
・ネガポジ
+アンケート

水曜に組み合わせて作るより
もはや辞書を自分で作った方が早いということで
10000ツイート形態素解析したものを以下の基準で絞り込んだ。

・名詞、動詞、形容詞、副詞のみに絞る
・非自立、接尾、固有名詞、特殊、代名詞、副詞可能、ナイ形容詞全削除
・英数字削除
・半角の文字削除
・頻出度1桁のもの削除
・2文字以下ひらがなカタカナ削除
・文頭が小さい文字で始まるもの

これらから残った1,000単語頻出度上から100個位を
選んで大規模にアンケートを取りたい。

10月第3週

今週の目標:感情辞書の拡張

達成度:2%

作業時間:
10/13(木) 3時間
10/14(金) 5時間
10/17(月) 8時間
10/18(火) 6時間
10/19(水) 0時間
合計約22時間くらい

内容:
アンケート結果をまとめた。
評価として
否定的(ネガティブ)
やや否定的
どちらかと言うと否定的
どちらかと言うと肯定的
やや肯定的
肯定的(ポジティブ)
に0~5の値を振り、10単語0~5の平均値を出し、
それを5分の1することで各文の印象値を出す。
単語が含まれる文1~3文分の印象値で各単語の感情値を決定した。

結果
フォロワー 0.422222
ツイート 0.4
フォロバ 0.866667
症候群 0.253333
もう少し 0.486667
双極性障害 0.271111
躁鬱 0.313333
動悸 0.26
やる気 0.426667
図書館 0.713333
となった。

Twitterの用語が中間の値に近く、病気や症状は0に近いのを見ると
辞書拡張に適用できるものにはなったと思う。

だがDictionaryを更新しても
makeでは書き換えたものが反映されていないらしい
これが適用されていないのか形態素解析の問題なのか

これを辞書に追加し感情値算出を行った結果
何も変化がなかった。原因は形態素解析の段階で
文字がバラバラになってしまうことだった。
(例:双極性障害=「双極」「性」「障害」など)

そこで形態素解析のツールも変える必要が出始め、
MeCabのNEologdをインストールしていた。
10月17日更新の記事参照。

これを感情値解析ツールに適用するのが次週の目標。

次週の目標:Dictionaryファイルの適用と形態素解析ソフトの入れ替え

10月第2週

今週の目標:アンケート完成&実施

達成率:100%

作業時間:
10/6(木) 3時間
10/7(金) 3時間半
10/10(月) 3時間
10/11(火) 4時間
10/12(水) 3時間半
合計約17時間くらい

内容:10000ツイート形態素解析したものから頻度等で削っていった結果1600単語ほどになり、加納先生の力をお借りしてその1600単語から感情辞書に登録されている単語を引くプログラムを作成した。
結果40弱ほどが残り、そこからさらにアプリ連動などでつぶやかれているようなものを削った結果25単語ほどになり、そこから第一回分のアンケート用に10単語分のツイートを抜き出した。

そしてGoogleフォームを使用してアンケートを作成。
思ったよりも時間がかかり、
最初は暗い⇔明るいで行こうとしていたものを否定的⇔肯定的という風に表現したが
「分からない」という意見が殺到し単にネガポジだと思って回答してもらえるようお願いした。

回答を待つ間に「統計的因果推論」を読んではいたが、
言葉が難しく何度も読み返している状況。

今週は1600単語-感情辞書=を出すプログラムをほぼ加納先生にやってもらったが、簡単なプログラムであれば一人でも書けるよう勉強したい。

次週の目標:感情辞書の拡張

10月第1週

今週の目標:移動平均グラフの作成手順の理解と感情辞書拡張用のアンケート作成

達成率:50%

作業時間:
9/29(木) 4時間半
10/4(火) 5時間
10/5(水) 4時間

合計約14時間半

内容:ツイート取得の続きと移動平均グラフの作成と「よくわかるうつ病」に目を通す。
感情辞書拡張用のアンケートためにうつであると判断したTwitterユーザーのつぶやきを10000ツイート集め
形態素解析を行ってさらにその結果からどの単語を辞書に反映するかという整理を行っていた。

移動平均グラフはエクセルで作ろうとすると範囲が前後ではないので手動で少し調整する部分があった。

10000ツイートを形態素解析したものを
動詞・副詞・名詞のいずれか(品詞の限定)
かつ
出現回数2桁以上(比較的多く出てくるもの)
かつ
記号と英語でない(文字のみに限定)
かつ
2文字以上(1文字では意味を持たない言葉も多いため)
かつ
漢字またはカタカナを含む(ひらがなだけでは意味が何通りにもなってしまう)
ものだけを抽出した。

今までうつ病と双極性障害(躁うつ病)を同等に扱っていたが本の中では別の病気として扱われていたため、
本研究でもうつ病と双極性障害については分けて考えることにした。

それに伴いツイート取得についても一部ツイート取得をし直す予定。

次週の目標:アンケート完成&実施