10月7日(金)

作業時間:3時間半
内容:アンケート用単語の絞込み

10000ツイート形態素解析したものから色々削って(10月5日の日報参照)

そこから第一回分のアンケート用に10単語分のツイートを抜き出した。
一度この10単語分でアンケ-トを実施し、感情辞書を拡張、感情値を算出して
どのくらい精度が上がったのかを見てみることにする。

-------
これで目に見えて分かるくらい精度上がんないかなあ…って感じ。
アンケートをやる意味がわかんなくなったりしてましたが
先生に諭されたりツイートの中身面白いなっていうのでやる気出てきました。

10月6日(木)

作業時間:3時間
内容:感情辞書拡張のための単語抜き出し

加納先生の力をお借りして10000ツイートを形態素解析したものから
感情辞書に登録されている単語を引くプログラムを作りました。

これで1000単語から50単語まで絞り込めたので
さらに中身を読んでアンケート用にしたいと思います。

10月5日(水)

作業時間:4時間程度

内容:アンケート用単語リストの準備、(グループゼミ)

10000ツイートを形態素解析したものを

動詞・副詞・名詞のいずれか(品詞の限定)
かつ
出現回数2桁以上(比較的多く出てくるもの)
かつ
記号と英語でない(文字のみに限定)
かつ
2文字以上(1文字では意味を持たない言葉も多いため)
かつ
漢字またはカタカナを含む(ひらがなだけでは意味が何通りにもなってしまう)

ものだけを抽出した。

これに絞った残り1060単語をisGrepというフリーソフトで
感情辞書ファイルに含まれているかどうかを調べる。

最後に残ったものとTwitterで使われる用語をあわせて種類ごとに分け、
辞書拡張用のアンケートの中身とする予定。

アンケート内容では単語ではなくこれらの単語を含んだ
文章によって印象評価をする。

9月30日(金)

作業時間:0時間

内容:Pythonのインストールして感情分析ができないかと少し模索していました。(この時期にすることじゃありませんが)

ただPythonいじってみたかっただけっていうのもあります。

あとはOculusRiftの設定等をしてVRに感動していたのがほとんどです。

なので今日は作業してません。

明日も来る予定なので許してください。

9月29日(木)

作業時間:4時間半くらい

内容:スケジュールの発表用資料作成、アンケート作成のための頻出語抽出

ネットスラングを集める前に今あるツイートの中にどんなネットスラングが使われているのかを調べるため、今ある8人分のツイートデータと自分のデータ、研究室の仲間一人の合計10人、10000ツイートに対し、形態素解析を行った。

さらにその中から頻度の少ない語と記号等を自分の感覚ではあるが削除し、残った1450単語が感情辞書に登録されているのかを知るために感情値算出を行った。

だが登録されている単語でも正しい値が出てこないという問題が発生したのでまた明日検証する。

 

9月28日(水)

作業時間:8時間?
内容:グループゼミ、予定の変更、WordPressの編集、ツイート取得
時間の割にいまいちなにやってたかわかりません。
ツイート取得の際に1000ツイート取得のはずが中身を見てみると998ツイートや750ツイートのように取得漏れがあり何度か試すと1000ツイート取得できたり変わらず取得漏れがあったりしました。原因は謎です。
ということで一旦1ページ多く取得してから手動で1000ツイートにしました(結局2度手間)

今週は移動平均のグラフを作成するのが目標でしたが、ツイート取得に問題が発生してしまったのでまだ時間がかかりそうです。

次週の目標は感情値算出ツールの拡張のためアンケートを作成します。
合間合間にツイート取得も行う予定です。