New Fashion Machine +

ファッション専門ブックマーク New Fashion Machine の補足説明です。

ブックマークデータを2万件ずつPythonで形態素解析 その3

前回からの続きです。それでは4万件〜6万件目の頻出ワードランキング100位までをどうぞ。

  • ランキングは主に名詞(名詞じゃないのも混ざってます)
  • 100位までカウントしてみました
  • 記号や数字などのノイズは飛ばしてます
  • 前の数字は順位
  • 後ろの数字は出現回数

4 ファッション 20177
9 ブランド 8108
12 ブログ 6735
13 店 6710
14 ショップ 6335
29 セレクト 4314
25 情報 3617
26 こと 3613
28 県 3521
31 さん 3129
32 商品 3096
33 2008 2926
36 市 2845
37 人 2790
38 紹介 2785
39 中 2780
40 shop 2653
44 雑貨 2415
45 東京 2228
46 女性 2192
47 2009 2180
49 よう 2039
50 イベント 2023
51 円 1976
53 販売 1938
54 ♪ 1932
55 的 1929
56 服 1915
57 もの 1888
58 アイテム 1879
59 今日 1853
60 入荷 1853
61 日本 1852
62 デザイン 1851
63 ニュース 1815
65 サイト 1794
66 アクセサリー 1741
67 オープン 1715
70 人気 1686
72 モデル 1617
73 色 1585
74 バッグ 1571
75 方 1522
80 ビジネス 1481
82 日記 1447
83 写真 1436
85 区 1410
86 発売 1394
89 誌 1343
90 開催 1343
91 私 1327
93 デザイナー 1271
95 新作 1236
96 今回 1223
97 スタッフ 1219
99 春 1190
100 jp 1182

前回とあまり変わらない感じですね。2009という数字が出てきたということは2009年ごろのデータかもしれません。

ブックマークデータを2万件ずつPythonで形態素解析 その2

前回からの続きです。それでは2万件〜4万件目の頻出ワードランキング100位までをどうぞ。

  • ランキングは主に名詞(名詞じゃないのも混ざってます)
  • 100位までカウントしてみました
  • 記号や数字などのノイズは飛ばしてます
  • 前の数字は順位
  • 後ろの数字は出現回数

5 ファッション 17397
8 ブログ 10076
12 ショップ 5835
14 ブランド 5333
17 店 4552
20 セレクト 4120
22 こと 3855
25 さん 3531
28 情報 3262
29 2008 3140
30 shop 3033
32 人 2892
34 中 2838
37 商品 2592
38 雑貨 2571
39 紹介 2511
40 方 2278
41 よう 2257
42 色 2186
43 ♪ 2055
45 今日 2019
48 日記 1909
49 入荷 1868
50 もの 1830
53 Blog 1819
54 私 1806
56 市 1776
57 アクセサリー 1708
58 サイト 1697
59 写真 1633
60 県 1625
61 イベント 1579
62 服 1542
64 的 1530
66 古着 1504
68 販売 1471
70 日本 1422
72 東京 1416
74 カラー 1373
76 女性 1354
77 モデル 1353
78 デザイン 1342
80 屋 1324
81 アイテム 1314
82 秋 1287
83 今回 1274
86 会 1236
87 円 1186
89 今 1180
90 人気 1177
92 事 1145
93 スタッフ 1136
94 メイド 1133
95 自分 1130
96 ため 1125
98 時間 1087
100 ビジネス 1065

以上でした。94位のメイドというのは多分ハンドメイドのメイドですね。ハンドはどこいった?続きます。整形が地味に大変!

ブックマークデータを2万件ずつPythonで形態素解析 その1

アパレル業界でJanomeといえばミシンですがIT業界では機械学習。どちらもマシンということで仲良くしましょう。

昨夜16万件近くのデータを解析にかけて眠りましたが流石に無理があったようでデータを2万件ずつに分けてみました。ちなみに1000位までランキングをとった解析には30分かかりました。方法については一つ前のエントリーをどうぞ。

fablog.hatenablog.com


それでは最初の2万件の頻出ワードランキング100位までをどうぞ。

  • ランキングは主に名詞(名詞じゃないのも混ざってます)
  • 100位までカウントしてみました
  • 記号や数字などのノイズは飛ばしてます
  • 前の数字は順位
  • 後ろの数字は出現回数

5 ファッション 19951
11 ブランド 5483
16 ブログ 4491
18 こと 3554
21 人 3019
24 さん 2609
25 ショップ 2568
26 店 2554
27 2007 2552
29 情報 2481
31 女性 2414
34 サイト 2212
35 よう 2209
38 ニュース 1972
40 shop 1877
41 もの 1876
42 中 1844
43 的 1842
44 服 1678
45 イベント 1623
46 日本 1602
47 東京 1585
48 誌 1580
49 デザイン 1575
50 モデル 1534
51 バッグ 1520
52 セレクト 1502
53 方 1463
54 商品 1440
55 ビジネス 1396
58 デザイナー 1322
61 私 1267
62 写真 1265
63 紹介 1245
65 2008 1242
67 系 1206
70 人気 1180
71 販売 1161
73 者 1148
74 com 1130
75 ため 1125
77 雑誌 1102
79 世界 1090
80 トレンド 1083
81 発売 1033
83 円 1019
84 オープン 1018
85 アイテム 998
86 区 989
87 自分 980
88 色 965
89 サービス 951
90 市 947
91 これ 945
93 男性 922
94 夏 917
95 コレクション 899
96 ページ 893
98 開催 888

2007、2008という数字がランクインしてるのはその頃とったブックマークだからですね。もう10年前かぁ。あと14万件…!

2000件のブックマークの概要をPythonで形態素解析して頻出ワードランキングを作ってみた

タイトルの通りです。最近Pythonに興味を持って、以下のような記事を見つけたのでマネしてやってみました。

qiita.com

なんのことはない、こちらの方法をそのまま使わせていただきました。ありがたい!

使ったデータはいままではてなブックマークしたデータの最初の2000件。こちらをphpMyAdminからエクスポートしてExcelでブックマーク概要の列のみを選択。独立したファイルを作りました。

bookmark.fablog.jp

全部で16万件以上あったため、実行中なんだかフリーズしてるんだかよくわからず、ざくっと減らしたらうまくいきました。(減らしすぎ)

それでは頻出ワードランキングをどうぞ

  • ランキングは主に名詞(名詞じゃないのも混ざってます)
  • 100位までカウントしてみました
  • 記号や数字などのノイズは飛ばしてます
  • 前の数字は順位
  • 後ろの数字は出現回数

4 ファッション 1915
16 こと 372
19 女性 326
22 ブランド 293
24 サイト 286
25 誌 285
26 情報 277
28 もの 225
31 的 202
32 よう 196
37 さん 183
39 日本 180
40 雑誌 179
41 中 175
42 服 174
44 系 149
45 ブログ 144
46 論文 144
47 ニュース 136
49 広告 135
50 調査 134
51 ため 133
52 方 131
55 モデル 125
56 者 123
57 資料 122
58 com 21
59 リサーチ 121
60 店 120
62 男性 118
63 商品 118
64 研究 117
66 私 113
67 写真 112
68 人気 111
69 紹介 111
71 サービス 110
74 ページ 107
75 東京 106
76 アンケート 105
78 おしゃれ 101
80 自分 99
81 ネット 99
82 ランキング 98
83 色 97
84 検索 96
85 利用 96
88 代 94
91 ビジネス 93
93 社会 92
94 ショップ 91
96 たち 90
98 販売 90
99 何 90

ざっとこんな感じでした。こうしてみるとあんまりファッション用語は入ってませんね。まぁ当たり前か。もっと下位の方をみると面白い発見がありそうですね。

惜しむらくはわたしがつけたタグも同じカラムに入っていてカウントされてしまっていることですね。これじゃあ純粋な概要の文章のランキングにはならない。

16万件の解析に挑みたいところですが残念ながら技術力不足です。が、勉強と思ってなんとかしてやってみたい。

リクエストやアドバイスなどありましたらTwitter(@fablog_jp)までよろしくお願いします。

追記:時間はかかったものの2万件でのデータ解析に成功しました。16万件行けるか寝てる間に解析かけておこうと思います。

はてなダイアリーからはてなブログに移行しました

以下ははてなダイアリー最後の記事です。

・・・

2016年6月5日

実験的にはてなブログに引っ越しました

おかしな言い回しですが、実験的に*1はてなブログに引っ越しました。ほんとダイアリー世代で色々思い出があるし、id:jkondo氏(現はてな会長)の「ブログはなくなるかもしれないけど日記はなくならない」みたいな言葉がずっと印象に残ってて敢えてダイアリーを使い続けていましたが、ブログは見事にメジャー化しましたね。開発の方もそちらに注力されていますし惜しみつつも移行したいと考えています。

新しいアドレスはこちらです。まだアカウントもタイトルも迷っているので変更の可能性大。

ほんとははてなID自体を変えたいんですよ。中の人のgirlがもう限界よ!まぁまぁ、機を見て。

・・・

というわけでこちらでもよろしくお願いします。Live Dwango Readerの終了にともないそちらも大チェッカーに移す予定にしています。関係ないですがはてなグループの服飾部に新規申し込みが!一応まだ存在しています。

*1:つくづく思いますがこの言葉便利だなぁ

「引き出しの裏側の角」ってどこ?良品計画さんに問い合わせてみた

無印良品で『アクリル ネックレス・ピアススタンド』を買った時に書いてあった説明。

(キズ防止シール付…引き出しの裏側の角に貼ってご使用ください)

*1「肩のうしろの2本のツノのまんなかのトサカの下のウロコの右」ほどじゃないけどわかりづらいよ!

― というわけで良品計画さんに直接電話で問い合わせてみたのだった ―

※2016年9月5日現在の情報です。あと私の解釈で要約してあります。対話形式で書こうと思ったけどめんどくさくなったのでやめました。

f:id:girls_fashion:20160905114221j:plain

問題のセット。この三角のチップと長方形のシートは一体?

f:id:girls_fashion:20160905114423j:plain

「引き出しの底の四隅」と言ったほうがわかりやすいと個人的には思うのですが。こう貼るんだそうです。わかるかな?シールは8枚ついているけど4枚は予備だそうです。

f:id:girls_fashion:20160905114656j:plain

このシートは真ん中に黒い線が見えますが、別にシールになっているわけではないのではがさないでね。これは引き出しの底に敷きます。説明書にすら登場してない代物。裏表はどちらでも構わないらしい。

f:id:girls_fashion:20160905114858j:plain

オプションの『アクリルネックレス・ピアススタンド用 ベロア内箱仕切・リング用・グレー』含め装着してみたところ。

…考えてみればそんなにアクセサリー持ってないよね!

*1:魔法陣グルグル』に出てくる迷言

実験的にはてなダイアリーからはてなブログに移行してみました。

みなさんお久しぶりです。といってももう存在忘れられてるかもですが。ただTwitterでつらつらと書いた漫画のキャラのファッションチェックを自分用にまとめたくてとりあえず開設してみたのですが、こちらのほうが良さそうであれば完全に移行しようかなと考えてます。ひとまずまだ続けていく意思はあるよってことでよろしくお願いします。