朝の眠気

パターン認識とかやる講義のレポート、Twitterで起きたばっかりみたいな人間にモーニングコーヒーの広告を出したいというネタを適当に考えて適当にやった。

投稿を起きたばかりかそれ以外の二値分類にして、自動抽出した特徴語(「むくり」とかを取ってくる)に適当なスコアをつけて適当にどうにかすればいいと考えて、後の素性は適当に考えたら適当に出てくるだろうと楽観視していた。でもそれ以外に起床っぽい素性が見当たらなくて、1次元でお願いします〜〜〜というのはまずいから焦って探した結果、投稿文字数を素性にしてみた。前回の投稿との時間差とかでも良かったけど、前に適当に集めてたTwitterデータにそういう情報が付与されてなかったから諦めた。

文字数を素性にしたのは、寝起きだと頭が働かなかったりして短い投稿になるのではと思ったから。正例と負例(同じつぶやき数のデータ)に対して文字数をカウントしたら、起床時の投稿では157万バイトあるのに対して、ソレ以外の投稿では5467万バイトとずいぶん差があった。文字数カウントしたつもりなのに wc -c してる感じが眠い。

よっしゃーと思ってRで適当な分類器を実装して適当にやったら、特徴語と適当にパターンマッチングするだけの手法に負けたからあんまりよっしゃーって感じじゃなかった。