New Fashion Machine +

ファッション専門ブックマーク New Fashion Machine の補足説明です。

ブックマークデータを2万件ずつPythonで形態素解析 その1

アパレル業界でJanomeといえばミシンですがIT業界では機械学習。どちらもマシンということで仲良くしましょう。

昨夜16万件近くのデータを解析にかけて眠りましたが流石に無理があったようでデータを2万件ずつに分けてみました。ちなみに1000位までランキングをとった解析には30分かかりました。方法については一つ前のエントリーをどうぞ。

fablog.hatenablog.com


それでは最初の2万件の頻出ワードランキング100位までをどうぞ。

  • ランキングは主に名詞(名詞じゃないのも混ざってます)
  • 100位までカウントしてみました
  • 記号や数字などのノイズは飛ばしてます
  • 前の数字は順位
  • 後ろの数字は出現回数

5 ファッション 19951
11 ブランド 5483
16 ブログ 4491
18 こと 3554
21 人 3019
24 さん 2609
25 ショップ 2568
26 店 2554
27 2007 2552
29 情報 2481
31 女性 2414
34 サイト 2212
35 よう 2209
38 ニュース 1972
40 shop 1877
41 もの 1876
42 中 1844
43 的 1842
44 服 1678
45 イベント 1623
46 日本 1602
47 東京 1585
48 誌 1580
49 デザイン 1575
50 モデル 1534
51 バッグ 1520
52 セレクト 1502
53 方 1463
54 商品 1440
55 ビジネス 1396
58 デザイナー 1322
61 私 1267
62 写真 1265
63 紹介 1245
65 2008 1242
67 系 1206
70 人気 1180
71 販売 1161
73 者 1148
74 com 1130
75 ため 1125
77 雑誌 1102
79 世界 1090
80 トレンド 1083
81 発売 1033
83 円 1019
84 オープン 1018
85 アイテム 998
86 区 989
87 自分 980
88 色 965
89 サービス 951
90 市 947
91 これ 945
93 男性 922
94 夏 917
95 コレクション 899
96 ページ 893
98 開催 888

2007、2008という数字がランクインしてるのはその頃とったブックマークだからですね。もう10年前かぁ。あと14万件…!