10月6日(木)

作業時間:3時間
内容:感情辞書拡張のための単語抜き出し

加納先生の力をお借りして10000ツイートを形態素解析したものから
感情辞書に登録されている単語を引くプログラムを作りました。

これで1000単語から50単語まで絞り込めたので
さらに中身を読んでアンケート用にしたいと思います。

10月第1週

今週の目標:移動平均グラフの作成手順の理解と感情辞書拡張用のアンケート作成

達成率:50%

作業時間:
9/29(木) 4時間半
10/4(火) 5時間
10/5(水) 4時間

合計約14時間半

内容:ツイート取得の続きと移動平均グラフの作成と「よくわかるうつ病」に目を通す。
感情辞書拡張用のアンケートためにうつであると判断したTwitterユーザーのつぶやきを10000ツイート集め
形態素解析を行ってさらにその結果からどの単語を辞書に反映するかという整理を行っていた。

移動平均グラフはエクセルで作ろうとすると範囲が前後ではないので手動で少し調整する部分があった。

10000ツイートを形態素解析したものを
動詞・副詞・名詞のいずれか(品詞の限定)
かつ
出現回数2桁以上(比較的多く出てくるもの)
かつ
記号と英語でない(文字のみに限定)
かつ
2文字以上(1文字では意味を持たない言葉も多いため)
かつ
漢字またはカタカナを含む(ひらがなだけでは意味が何通りにもなってしまう)
ものだけを抽出した。

今までうつ病と双極性障害(躁うつ病)を同等に扱っていたが本の中では別の病気として扱われていたため、
本研究でもうつ病と双極性障害については分けて考えることにした。

それに伴いツイート取得についても一部ツイート取得をし直す予定。

次週の目標:アンケート完成&実施

10月5日(水)

作業時間:4時間程度

内容:アンケート用単語リストの準備、(グループゼミ)

10000ツイートを形態素解析したものを

動詞・副詞・名詞のいずれか(品詞の限定)
かつ
出現回数2桁以上(比較的多く出てくるもの)
かつ
記号と英語でない(文字のみに限定)
かつ
2文字以上(1文字では意味を持たない言葉も多いため)
かつ
漢字またはカタカナを含む(ひらがなだけでは意味が何通りにもなってしまう)

ものだけを抽出した。

これに絞った残り1060単語をisGrepというフリーソフトで
感情辞書ファイルに含まれているかどうかを調べる。

最後に残ったものとTwitterで使われる用語をあわせて種類ごとに分け、
辞書拡張用のアンケートの中身とする予定。

アンケート内容では単語ではなくこれらの単語を含んだ
文章によって印象評価をする。

9月30日(金)

作業時間:0時間

内容:Pythonのインストールして感情分析ができないかと少し模索していました。(この時期にすることじゃありませんが)

ただPythonいじってみたかっただけっていうのもあります。

あとはOculusRiftの設定等をしてVRに感動していたのがほとんどです。

なので今日は作業してません。

明日も来る予定なので許してください。

9月29日(木)

作業時間:4時間半くらい

内容:スケジュールの発表用資料作成、アンケート作成のための頻出語抽出

ネットスラングを集める前に今あるツイートの中にどんなネットスラングが使われているのかを調べるため、今ある8人分のツイートデータと自分のデータ、研究室の仲間一人の合計10人、10000ツイートに対し、形態素解析を行った。

さらにその中から頻度の少ない語と記号等を自分の感覚ではあるが削除し、残った1450単語が感情辞書に登録されているのかを知るために感情値算出を行った。

だが登録されている単語でも正しい値が出てこないという問題が発生したのでまた明日検証する。

 

9月28日(水)

作業時間:8時間?
内容:グループゼミ、予定の変更、WordPressの編集、ツイート取得
時間の割にいまいちなにやってたかわかりません。
ツイート取得の際に1000ツイート取得のはずが中身を見てみると998ツイートや750ツイートのように取得漏れがあり何度か試すと1000ツイート取得できたり変わらず取得漏れがあったりしました。原因は謎です。
ということで一旦1ページ多く取得してから手動で1000ツイートにしました(結局2度手間)

今週は移動平均のグラフを作成するのが目標でしたが、ツイート取得に問題が発生してしまったのでまだ時間がかかりそうです。

次週の目標は感情値算出ツールの拡張のためアンケートを作成します。
合間合間にツイート取得も行う予定です。

移動平均分析

今回移動平均を出すのにExcel内の「移動平均分析ツール」を使用した。

サイト見てもよくわからず時間がかかってしまったのでここにメモしておく。

まずExcelのファイル>オプションを開く。

2016y09m28d_105624232

その中にアドインというタブがあるのでそこを開くとこの画面となる。

一番下にある管理の中の設定を開くと

2016y09m28d_105653494

この画面となるのでその中の「分析ツール」にチェックを入れてOKを押す。

(私はどっちに移動平均が入っているのか知らずどっちにもチェックを入れている)

2016y09m28d_105727263

すると通常の画面のデータタブの一番右にデータ分析が現れるのでそこを押す。

あとは範囲や区間を指定するだけで移動平均の値が出る。

前後の値を取りたい場合はあとでセルを広げる必要がある。