10月7日(金)

作業時間:3時間半
内容:アンケート用単語の絞込み

10000ツイート形態素解析したものから色々削って(10月5日の日報参照)

そこから第一回分のアンケート用に10単語分のツイートを抜き出した。
一度この10単語分でアンケ-トを実施し、感情辞書を拡張、感情値を算出して
どのくらい精度が上がったのかを見てみることにする。

-------
これで目に見えて分かるくらい精度上がんないかなあ…って感じ。
アンケートをやる意味がわかんなくなったりしてましたが
先生に諭されたりツイートの中身面白いなっていうのでやる気出てきました。

10月6日(木)

作業時間:3時間
内容:感情辞書拡張のための単語抜き出し

加納先生の力をお借りして10000ツイートを形態素解析したものから
感情辞書に登録されている単語を引くプログラムを作りました。

これで1000単語から50単語まで絞り込めたので
さらに中身を読んでアンケート用にしたいと思います。

10月第1週

今週の目標:移動平均グラフの作成手順の理解と感情辞書拡張用のアンケート作成

達成率:50%

作業時間:
9/29(木) 4時間半
10/4(火) 5時間
10/5(水) 4時間

合計約14時間半

内容:ツイート取得の続きと移動平均グラフの作成と「よくわかるうつ病」に目を通す。
感情辞書拡張用のアンケートためにうつであると判断したTwitterユーザーのつぶやきを10000ツイート集め
形態素解析を行ってさらにその結果からどの単語を辞書に反映するかという整理を行っていた。

移動平均グラフはエクセルで作ろうとすると範囲が前後ではないので手動で少し調整する部分があった。

10000ツイートを形態素解析したものを
動詞・副詞・名詞のいずれか(品詞の限定)
かつ
出現回数2桁以上(比較的多く出てくるもの)
かつ
記号と英語でない(文字のみに限定)
かつ
2文字以上(1文字では意味を持たない言葉も多いため)
かつ
漢字またはカタカナを含む(ひらがなだけでは意味が何通りにもなってしまう)
ものだけを抽出した。

今までうつ病と双極性障害(躁うつ病)を同等に扱っていたが本の中では別の病気として扱われていたため、
本研究でもうつ病と双極性障害については分けて考えることにした。

それに伴いツイート取得についても一部ツイート取得をし直す予定。

次週の目標:アンケート完成&実施

10月5日(水)

作業時間:4時間程度

内容:アンケート用単語リストの準備、(グループゼミ)

10000ツイートを形態素解析したものを

動詞・副詞・名詞のいずれか(品詞の限定)
かつ
出現回数2桁以上(比較的多く出てくるもの)
かつ
記号と英語でない(文字のみに限定)
かつ
2文字以上(1文字では意味を持たない言葉も多いため)
かつ
漢字またはカタカナを含む(ひらがなだけでは意味が何通りにもなってしまう)

ものだけを抽出した。

これに絞った残り1060単語をisGrepというフリーソフトで
感情辞書ファイルに含まれているかどうかを調べる。

最後に残ったものとTwitterで使われる用語をあわせて種類ごとに分け、
辞書拡張用のアンケートの中身とする予定。

アンケート内容では単語ではなくこれらの単語を含んだ
文章によって印象評価をする。