New Fashion Machine +

ファッション専門ブックマーク New Fashion Machine の補足説明です。

ファッション記事の形態素解析は形容詞の方が面白かった その2

ちょこちょこブックマークやスター、お気に入りいただけてうれしく思ってます。読者登録ありがとうございます。励みになります!

さてさて、ファッション関係のブックマークの概要を解析してみたよ 形容詞編 第2回目です。

では2万件〜4万件目の100位までの頻出ワードランキングをどうぞ!前の数字は順位、後ろの数字は出現回数となっております。

1 いい 1026
2 ない 860
3 新しい 579
4 多い 533
5 良い 481
6 かわいい 440
7 可愛い 400
8 楽しい 363
9 なく 308
10 高い 275
11 やすい 238
12 寒く 235
13 楽しく 232
14 暑い 229
15 多く 226
16 欲しい 224
17 早く 215
18 良く 214
19 寒い 202
20 嬉しい 190
21 無い 169
22 涼しく 169
23 早い 165
24 美しい 150
25 すごく 148
26 詳しく 139
27 長い 137
28 すごい 137
29 大きく 131
30 大きい 124
31 悪い 123
32 やすく 117
33 新しく 116
34 面白い 116
35 若い 114
36 っぽい 111
37 小さい 109
38 宜しく 107
39 おいしい 102
40 よかっ 101
41 よく 100
42 なし 98
43 よい 96
44 強い 95
45 少ない 94
46 なかっ 94
47 近い 91
48 軽く 90
49 暑 90
50 寒 89
51 遅く 87
52 かっこいい 86
53 楽し 86
54 ほしい 85
55 長く 84
56 良かっ 84
57 いち早く 83
58 美味しい 81
59 優しい 79
60 大き 79
61 安く 77
62 良 77
63 幅広く 76
64 にくい 75
65 難しい 73
66 忙しい 73
67 安い 72
68 多かっ 72
69 美しく 71
70 幅広い 70
71 うれしい 70
72 暖かい 70
73 高く 68
74 カッコイイ 68
75 素晴らしい 67
76 イイ 67
77 可愛く 65
78 強く 64
79 正しい 61
80 詳しい 61
81 肌寒い 61
82 少なく 61
83 暑く 61
84 白い 58
85 凄い 57
86 悪く 57
87 短い 56
88 っぽく 55
89 楽しかっ 55
90 肌寒く 55
91 高 54
92 ぽ 53
93 無く 52
94 明るく 51
95 可愛 51
96 かわいく 50
97 長 50
98 涼しい 50
99 忙しく 49
100 明るい 48

ファッションと季節は切っても切れない関係にあり、「暑い」「寒い」といったワードがちらほら。

相変わらずかわいいは強いですね。

さてどんどん行きたいところですが気まぐれ更新になりそうです。しかしほっとくとそのままになってしまいそうだからできるだけダーっと仕上げたい。

ファッション記事の形態素解析は形容詞の方が面白かった その1

わたしが10年以上にわたりブックマークしてきたファッションに関するブックマーク。(b:id:girls_fashion)このままでは何かもったいないような気がして煮たり焼いたりを試しています。今回やってみたのがPythonによる形態素解析→頻出ワードランキング。

fablog.hatenablog.com

1回目は名詞でやってみたのですが今ひとつ面白みにかけました。というわけで今回は形容詞でやってみることにしました。

では1件〜2万件目の100位までの頻出ワードランキングをどうぞ!前の数字は順位、後ろの数字は出現回数となっております。

1 ない 833
2 いい 714
3 多い 554
4 新しい 437
5 かわいい 337
6 高い 312
7 良い 290
8 なく 253
9 欲しい 194
10 多く 193
11 やすい 189
12 若い 170
13 可愛い 162
14 詳しく 136
15 楽しい 133
16 美しく 132
17 美しい 131
18 楽しく 126
19 早く 120
20 良く 117
21 っぽい 108
22 無い 107
23 大きく 107
24 面白い 94
25 長い 91
26 すごい 88
27 悪い 85
28 強い 84
29 なかっ 84
30 よく 80
31 よい 79
32 暑い 77
33 難しい 73
34 近い 73
35 いち早く 73
36 嬉しい 72
37 やすく 70
38 なし 70
39 大きい 68
40 少ない 68
41 すごく 66
42 多かっ 64
43 寒い 62
44 っぽく 62
45 良 62
46 幅広い 62
47 ほしい 60
48 新しく 60
49 古い 60
50 少なく 59
51 強く 59
52 かっこいい 59
53 黒い 58
54 長く 57
55 高く 56
56 美し 54
57 早い 54
58 安い 53
59 小さい 53
60 詳しい 53
61 正しい 52
62 涼しく 51
63 にくい 51
64 宜しく 50
65 短い 49
66 白い 49
67 深く 49
68 厳しい 49
69 安く 48
70 ダサい 48
71 幅広く 48
72 広く 47
73 寒く 46
74 長 46
75 おいしい 45
76 楽し 45
77 高 45
78 うまく 43
79 うれしい 43
80 痛い 43
81 良かっ 42
82 大き 41
83 優しい 40
84 美味しい 40
85 早 38
86 無く 38
87 軽く 38
88 おもしろい 37
89 熱い 37
90 可愛 36
91 広い 35
92 ぽ 35
93 暑 35
94 く 35
95 遅く 35
96 小さく 34
97 数多く 34
98 よかっ 34
99 カッコイイ 33
100 おもしろ 33

比較的ポジティブなワードが上位にランクインしていてなんだかうれしい。堂々の1位は「ない」NAI!おそらく多くは「○○でない」という表現で使われているものと思われます。よくなく なくなく なくなくない?

4位 新しい、6位 高い、9位 欲しい あたりにはモードピーポーの叫びが隠れている?

5位、13位、90位はこれぞ日本ですね。KAWAII!かわゆす、かわたん、おかわなどのその時々の流行語が入ったらまた増えそうですよね。対するかっこいいは52位という結果に。

あまり語ると第8回までに書くことが無くなりそうなのでこの辺で!

ブックマークデータを2万件ずつPythonで形態素解析 その8

前回からの続きです。それでは14万件〜約16万件目の頻出ワードランキング100位までをどうぞ。

  • ランキングは主に名詞(名詞じゃないのも混ざってます)
  • 100位までカウントしてみました
  • 記号や数字などのノイズは飛ばしてます
  • 前の数字は順位
  • 後ろの数字は出現回数

5 ブログ 14669
7 店 11013
14 さん 5822
19 ファッション 4918
21 ブランド 4344
23 一覧 4111
26 ショップ 3538
27 商品 3364
28 記事 3363
31 情報 2800
32 こと 2745
33 市 2729
38 販売 2365
41 中 2323
43 ページ 2230
44 サイト 2211
47 画像 2184
48 人 2173
49 紹介 2140
51 通販 2105
52 株式会社 2089
53 2012 2033
54 アイテム 1964
56 服 1917
57 東京 1897
60 最新 1835
61 2015 1833
62 女性 1786
63 円 1762
64 Ameba 1752
66 セレクト 1691
67 日本 1683
68 雑貨 1660
69 ブログトップ 1653
70 区 1623
72 発売 1585
73 説明 1585
74 開催 1558
75 テーマ 1547
76 新作 1520
77 古着 1520
78 県 1499
79 入荷 1476
80 入力 1472
81 2013 1440
82 デザイン 1407
84 2014 1380
86 人気 1362
87 よう 1339
89 大阪 1318
90 ニュース 1305
91 店舗 1305
92 靴 1291
93 的 1277
94もの 1266
95 ♪ 1262
96 品 1239
98 イベント 1224
99 オープン 1220

今回もあまり特徴ないですね。2012年〜2015年のブックマークが多いようです。

以上で全て解析終わりです。読んでくださった方ありがとうございました!もっと面白いことできるようになりたいです。

ブックマークデータを2万件ずつPythonで形態素解析 その7

前回からの続きです。それでは12万件〜14万件目の頻出ワードランキング100位までをどうぞ。

  • ランキングは主に名詞(名詞じゃないのも混ざってます)
  • 100位までカウントしてみました
  • 記号や数字などのノイズは飛ばしてます
  • 前の数字は順位
  • 後ろの数字は出現回数

7 ブログ 11434
8 店 9273
18 ファッション 4733
20 2012 4478
25 商品 3621
26 ブランド 3508
27 ショップ 3363
28 情報 2941
32 販売 2703
33 こと 2699
34 株式会社 2608
35 市 2494
36 さん 2395
38 紹介 2275
39 中 2270
40 服 2219
42 雑貨 2168
43 2011 2165
46 サイト 2038
47 人 2030
49 記事 1942
53 東京 1852
55 県 1840
56 日本 1819
57 説明 1814
58 女性 1780
59 一覧 1755
61 プロフィール 1732
63 円 1632
64 入力 1623
65 アイテム 1619
67 通販 1572
69 ページ 1549
70 開催 1543
72 デザイン 1511
73 ♪ 1484
74 ニュース 1476
75 よう 1437
77 セレクト 1421
80 発売 1382
82 専門 1372
83 的 1366
84 大阪 1358
85 人気 1349
86 入荷 1343
87 モデル 1341
88 新作 1334
91 オープン 1296
92 テーマ 1284
93 もの 1273
94 区 1273
95 時間 1268
97 アクセサリー 1218
98 イベント 1208
99 店舗 1184
100 部屋 1173

うーん、あんまり特徴のないデータですね。2011年〜2012年ごろのブックマークが多いようですね。

次で最後!

ブックマークデータを2万件ずつPythonで形態素解析 その6

前回からの続きです。それでは10万件〜12万件目の頻出ワードランキング100位までをどうぞ。

  • ランキングは主に名詞(名詞じゃないのも混ざってます)
  • 100位までカウントしてみました
  • 記号や数字などのノイズは飛ばしてます
  • 前の数字は順位
  • 後ろの数字は出現回数

1 ブログ 20938
7 店 13352
12 プロフィール 6350
18 紹介 4473
19 情報 4325
21 ニックネーム 4100
26 説明 3632
27 市 3630
28 ファッション 3602
29 部屋 3441
30 さん 3404
31 入力 3337
32 商品 3323
35 ピグ 3228
38 ショップ 3128
41 こと 2866
44 県 2782
47 販売 2555
49 ♪ 2548
50 ルーム 527
51 ブログ2439
52 ブランド 2394
53 記事 2365
54 ブログジャンル 2286
58 靴 2186
59 雑貨 2171
60 2010 2100
62 屋 2069
63 中 2064
66 ミシン 1946
69 株式会社 1924
70 女性 1910
71 メッセージ 1908
73 人 1862
74 服 1862
75 自己 1835
76 型 1822
77 スタッフ 1795
78 東京 1734
79 日記 1705
83 専門 1630
85 プレゼント 1625
86 アメンバー 1624
89 性別 1596
93 修理 1511
94 日々 1501
95 区 1494
96 大阪 1466
99 店長 1451
100 最近 1446

これはおそらくアメブロをブックマークしまくっていた時期ですね。関連用語がたくさんランクインしています。東京は毎回ランクインしていますがここにきて大阪もランクイン。関西在住なのでなんだかうれしい。

あと2回お付き合いください。

ブックマークデータを2万件ずつPythonで形態素解析 その5

前回からの続きです。それでは8万件〜10万件目の頻出ワードランキング100位までをどうぞ。

  • ランキングは主に名詞(名詞じゃないのも混ざってます)
  • 100位までカウントしてみました
  • 記号や数字などのノイズは飛ばしてます
  • 前の数字は順位
  • 後ろの数字は出現回数

8 ブログ 9490
14 店 6372
18 ファッション 4593
22 こと 3575
23 さん 3366
29 2010 3135
30 商品 3094
31 Twitter 3066
32 情報 2890
33 2009 2859
34 いま 2757
36 紹介 2720
39 人 2629
40 ブランド 2602
41 中 2531
42 ニュース 2332
43 ショップ 2286
48 サービス 1941
49 東京 1935
50 販売 1926
51 円 1877
54 無料 1786
55 市 1784
56 on 1773
57 ♪ 1766
58 よう 1721
59 もの 1705
60 日本 1680
63 可能 1646
64 サイト 1642
66 jp 1603
70 ほか 1566
71 形 1563
72 登録 1555
74 雑貨 1519
75 シンプル 1517
76 ユーザー 1510
77 デザイン 1488
78 時間 1484
79 女性 1476
80 今日 1472
82 発売 1451
83 質問 1446
85 的 1434
86 日記 1421
88 説明 1415
89 なに 1404
91 前 1369
93 交流 1364
94 方 1353
97 ツイート 1339
98 受信 1336
100 人気 1271

前回からガラッと中身が変わった印象。2009、2010という数字がランクインしていることからその頃のブックマークと思われます。Twitterが流行り始めた時期かな?関連ワードが多いですね。続きます。夜までに終わるかなぁ。

ブックマークデータを2万件ずつPythonで形態素解析 その4

前回からの続きです。それでは6万件〜8万件目の頻出ワードランキング100位までをどうぞ。

  • ランキングは主に名詞(名詞じゃないのも混ざってます)
  • 100位までカウントしてみました
  • 記号や数字などのノイズは飛ばしてます
  • 前の数字は順位
  • 後ろの数字は出現回数

5 ファッション 18705
9 ブログ 10979
12 ブランド 6867
14 店 6314
19 2009 5247
20 ショップ 4968
21 県 3891
29 こと 3308
30 セレクト 3258
31 さん 3131
32 情報 3000
34 市 2989
37 商品 2883
39 人 2636
42 the 2528
43 紹介 2422
45 中 2338
46 イベント 2313
49 東京 2105
50 円 2088
51 shop 2052
53 日本 1970
54 雑貨 1939
55 ニュース 1938
56 レディース 1937
57 販売 1920
58 and 1893
60 ビジネス 1785
62 的 1770
67 サイト 1698
69 女性 1666
70 モデル 1645
71 よう 1616
72 of 1590
74 ♪ 1574
75 オープン 1568
77 今日 1539
78 デザイン 1528
79 もの 1522
80 服 1521
83 誌 1501
85 アイテム 1483
86 Fashion 1449
87 to 1447
88 com 1430
90 in 1423
91 アクセサリー 1402
92 発売 1391
93 人気 1359
94 バッグ 1319
95 入荷 1316
96 写真 1302
97 by 1298
98 開催 1298
99 日記 1280

なんだろうこの地味なブログは…。決してキーワードスパムではないですよ。「the」や「of」など入れようか迷いましたが入れてみました。続きまーす。あと半分!