2000件のブックマークの概要をPythonで形態素解析して頻出ワードランキングを作ってみた

タイトルの通りです。最近Pythonに興味を持って、以下のような記事を見つけたのでマネしてやってみました。

なんのことはない、こちらの方法をそのまま使わせていただきました。ありがたい！

使ったデータはいままではてなブックマークしたデータの最初の2000件。こちらをphpMyAdminからエクスポートしてExcelでブックマーク概要の列のみを選択。独立したファイルを作りました。

bookmark.fablog.jp

全部で16万件以上あったため、実行中なんだかフリーズしてるんだかよくわからず、ざくっと減らしたらうまくいきました。(減らしすぎ)

それでは頻出ワードランキングをどうぞ

ランキングは主に名詞(名詞じゃないのも混ざってます)
100位までカウントしてみました
記号や数字などのノイズは飛ばしてます
前の数字は順位
後ろの数字は出現回数

4 ファッション 1915
16 こと 372
19 女性 326
22 ブランド 293
24 サイト 286
25 誌 285
26 情報 277
28 もの 225
31 的 202
32 よう 196
37 さん 183
39 日本 180
40 雑誌 179
41 中 175
42 服 174
44 系 149
45 ブログ 144
46 論文 144
47 ニュース 136
49 広告 135
50 調査 134
51 ため 133
52 方 131
55 モデル 125
56 者 123
57 資料 122
58 com 21
59 リサーチ 121
60 店 120
62 男性 118
63 商品 118
64 研究 117
66 私 113
67 写真 112
68 人気 111
69 紹介 111
71 サービス 110
74 ページ 107
75 東京 106
76 アンケート 105
78 おしゃれ 101
80 自分 99
81 ネット 99
82 ランキング 98
83 色 97
84 検索 96
85 利用 96
88 代 94
91 ビジネス 93
93 社会 92
94 ショップ 91
96 たち 90
98 販売 90
99 何 90

ざっとこんな感じでした。こうしてみるとあんまりファッション用語は入ってませんね。まぁ当たり前か。もっと下位の方をみると面白い発見がありそうですね。

惜しむらくはわたしがつけたタグも同じカラムに入っていてカウントされてしまっていることですね。これじゃあ純粋な概要の文章のランキングにはならない。

16万件の解析に挑みたいところですが残念ながら技術力不足です。が、勉強と思ってなんとかしてやってみたい。

リクエストやアドバイスなどありましたらTwitter(@fablog_jp)までよろしくお願いします。

追記：時間はかかったものの2万件でのデータ解析に成功しました。16万件行けるか寝てる間に解析かけておこうと思います。

New Fashion Machine ＋

ファッション専門ブックマーク New Fashion Machine の補足説明です。

2000件のブックマークの概要をPythonで形態素解析して頻出ワードランキングを作ってみた

それでは頻出ワードランキングをどうぞ