>商品類(lèi)目:沙發(fā);數(shù)量:共100頁(yè)4400個(gè)商品;篩選條件:天貓、銷(xiāo)量從高到低、價(jià)格500元以上。項(xiàng)目目的1.對(duì)商品標(biāo)題進(jìn)行文本分析詞云可視化2.不同關(guān)鍵詞word對(duì)應(yīng)的sales的統(tǒng)計(jì)分析3.商品的價(jià)格分布情況分析4.商品的銷(xiāo)量分布情況分析5.不同價(jià)格區(qū)間的商品的平均銷(xiāo)量分布6.商品價(jià)格對(duì)銷(xiāo)量的影響分析7.商品價(jià)格對(duì)銷(xiāo)售額的影響分析8.不同" />

黄色网页视频 I 影音先锋日日狠狠久久 I 秋霞午夜毛片 I 秋霞一二三区 I 国产成人片无码视频 I 国产 精品 自在自线 I av免费观看网站 I 日本精品久久久久中文字幕5 I 91看视频 I 看全色黄大色黄女片18 I 精品不卡一区 I 亚洲最新精品 I 欧美 激情 在线 I 人妻少妇精品久久 I 国产99视频精品免费专区 I 欧美影院 I 欧美精品在欧美一区二区少妇 I av大片网站 I 国产精品黄色片 I 888久久 I 狠狠干最新 I 看看黄色一级片 I 黄色精品久久 I 三级av在线 I 69色综合 I 国产日韩欧美91 I 亚洲精品偷拍 I 激情小说亚洲图片 I 久久国产视频精品 I 国产综合精品一区二区三区 I 色婷婷国产 I 最新成人av在线 I 国产私拍精品 I 日韩成人影音 I 日日夜夜天天综合

使用Python爬了4400條淘寶商品數(shù)據(jù),竟發(fā)現(xiàn)了這些“潛規(guī)則”

系統(tǒng) 1961 0

本文記錄了筆者用 Python 爬取淘寶某商品的全過(guò)程,并對(duì)商品數(shù)據(jù)進(jìn)行了挖掘與分析,最終得出結(jié)論。

項(xiàng)目?jī)?nèi)容

使用Python爬了4400條淘寶商品數(shù)據(jù),竟發(fā)現(xiàn)了這些“潛規(guī)則”_第1張圖片

本案例選擇>> 商品類(lèi)目:沙發(fā);
數(shù)量:共100頁(yè)? 4400個(gè)商品;
篩選條件:天貓、銷(xiāo)量從高到低、價(jià)格500元以上。

項(xiàng)目目的

1. 對(duì)商品標(biāo)題進(jìn)行文本分析 詞云可視化
2. 不同關(guān)鍵詞word對(duì)應(yīng)的sales的統(tǒng)計(jì)分析
3. 商品的價(jià)格分布情況分析
4. 商品的銷(xiāo)量分布情況分析
5. 不同價(jià)格區(qū)間的商品的平均銷(xiāo)量分布
6. 商品價(jià)格對(duì)銷(xiāo)量的影響分析
7. 商品價(jià)格對(duì)銷(xiāo)售額的影響分析
8. 不同省份或城市的商品數(shù)量分布
9.不同省份的商品平均銷(xiāo)量分布

注:本項(xiàng)目?jī)H以以上幾項(xiàng)分析為例。

項(xiàng)目步驟

1. 數(shù)據(jù)采集:Python爬取淘寶網(wǎng)商品數(shù)據(jù)
2. 對(duì)數(shù)據(jù)進(jìn)行清洗和處理
3. 文本分析:jieba分詞、wordcloud可視化
4. 數(shù)據(jù)柱形圖可視化 barh
5. 數(shù)據(jù)直方圖可視化 hist
6. 數(shù)據(jù)散點(diǎn)圖可視化 scatter
7. 數(shù)據(jù)回歸分析可視化 regplot

工具&模塊:

工具:本案例代碼編輯工具 Anaconda的Spyder
模塊:requests、retrying、missingno、jieba、matplotlib、wordcloud、imread、seaborn 等。

一、爬取數(shù)據(jù)

因淘寶網(wǎng)是反爬蟲(chóng)的,雖然使用多線程、修改headers參數(shù),但仍然不能保證每次100%爬取,所以 我增加了循環(huán)爬取,每次循環(huán)爬取未爬取成功的頁(yè) 直至所有頁(yè)爬取成功停止。
說(shuō)明:淘寶商品頁(yè)為JSON格式 這里使用正則表達(dá)式進(jìn)行解析;

代碼如下:

使用Python爬了4400條淘寶商品數(shù)據(jù),竟發(fā)現(xiàn)了這些“潛規(guī)則”_第2張圖片

二、數(shù)據(jù)清洗、處理:

(此步驟也可以在Excel中完成 再讀入數(shù)據(jù))

代碼如下:

使用Python爬了4400條淘寶商品數(shù)據(jù),竟發(fā)現(xiàn)了這些“潛規(guī)則”_第3張圖片

使用Python爬了4400條淘寶商品數(shù)據(jù),竟發(fā)現(xiàn)了這些“潛規(guī)則”_第4張圖片

說(shuō)明:根據(jù)需求,本案例中只取了 item_loc, raw_title, view_price, view_sales 這4列數(shù)據(jù),主要對(duì) 標(biāo)題、區(qū)域、價(jià)格、銷(xiāo)量 進(jìn)行分析。

代碼如下:

使用Python爬了4400條淘寶商品數(shù)據(jù),竟發(fā)現(xiàn)了這些“潛規(guī)則”_第5張圖片

三、數(shù)據(jù)挖掘與分析:

【1】. 對(duì) raw_title 列標(biāo)題進(jìn)行文本分析:

使用結(jié)巴分詞器,安裝模塊pip install jieba

使用Python爬了4400條淘寶商品數(shù)據(jù),竟發(fā)現(xiàn)了這些“潛規(guī)則”_第6張圖片

對(duì) title_s(list of list 格式)中的每個(gè)list的元素(str)進(jìn)行過(guò)濾 剔除不需要的詞語(yǔ),即 把停用詞表stopwords中有的詞語(yǔ)都剔除掉:

使用Python爬了4400條淘寶商品數(shù)據(jù),竟發(fā)現(xiàn)了這些“潛規(guī)則”_第7張圖片

因?yàn)橄旅嬉y(tǒng)計(jì)每個(gè)詞語(yǔ)的個(gè)數(shù),所以 為了準(zhǔn)確性 這里對(duì)過(guò)濾后的數(shù)據(jù) title_clean 中的每個(gè)list的元素進(jìn)行去重,即 每個(gè)標(biāo)題被分割后的詞語(yǔ)唯一。

使用Python爬了4400條淘寶商品數(shù)據(jù),竟發(fā)現(xiàn)了這些“潛規(guī)則”_第8張圖片

觀察 word_count 表中的詞語(yǔ),發(fā)現(xiàn)jieba默認(rèn)的詞典 無(wú)法滿(mǎn)足需求:
有的詞語(yǔ)(如 可拆洗、不可拆洗等)卻被cut,這里根據(jù)需求對(duì)詞典加入新詞(也可以直接在詞典dict.txt里面增刪,然后載入修改過(guò)的dict.txt)

使用Python爬了4400條淘寶商品數(shù)據(jù),竟發(fā)現(xiàn)了這些“潛規(guī)則”_第9張圖片

詞云可視化:

安裝模塊 wordcloud:
方法1: pip install wordcloud
方法2: 下載Packages安裝:pip install 軟件包名稱(chēng)
軟件包下載地址:https://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud

注意:要把下載的軟件包放在Python安裝路徑下。

代碼如下:

使用Python爬了4400條淘寶商品數(shù)據(jù),竟發(fā)現(xiàn)了這些“潛規(guī)則”_第10張圖片

使用Python爬了4400條淘寶商品數(shù)據(jù),竟發(fā)現(xiàn)了這些“潛規(guī)則”_第11張圖片

分析結(jié)論:

1. 組合、整裝商品占比很高;

2. 從沙發(fā)材質(zhì)看:布藝沙發(fā)占比很高,比皮藝沙發(fā)多;
3. 從沙發(fā)風(fēng)格看:簡(jiǎn)約風(fēng)格最多,北歐風(fēng)次之,其他風(fēng)格排名依次是美式、中式、日式、法式 等;
4. 從戶(hù)型看:小戶(hù)型占比最高、大小戶(hù)型次之,大戶(hù)型最少。

【2】. 不同關(guān)鍵詞word對(duì)應(yīng)的sales之和的統(tǒng)計(jì)分析:

(說(shuō)明:例如 詞語(yǔ) ‘簡(jiǎn)約',則統(tǒng)計(jì)商品標(biāo)題中含有‘簡(jiǎn)約'一詞的商品的銷(xiāo)量之和,即求出具有‘簡(jiǎn)約'風(fēng)格的商品銷(xiāo)量之和)

代碼如下:

使用Python爬了4400條淘寶商品數(shù)據(jù),竟發(fā)現(xiàn)了這些“潛規(guī)則”_第12張圖片

對(duì)表df_word_sum 中的 word 和 w_s_sum 兩列數(shù)據(jù)進(jìn)行可視化
(本例中取銷(xiāo)量排名前30的詞語(yǔ)進(jìn)行繪圖)

使用Python爬了4400條淘寶商品數(shù)據(jù),竟發(fā)現(xiàn)了這些“潛規(guī)則”_第13張圖片

使用Python爬了4400條淘寶商品數(shù)據(jù),竟發(fā)現(xiàn)了這些“潛規(guī)則”_第14張圖片

由圖表可知:

1. 組合商品銷(xiāo)量最高 ;

2. 從品類(lèi)看:布藝沙發(fā)銷(xiāo)量很高,遠(yuǎn)超過(guò)皮藝沙發(fā);
3. 從戶(hù)型看:小戶(hù)型沙發(fā)銷(xiāo)量最高,大小戶(hù)型次之,大戶(hù)型銷(xiāo)量最少;
4. 從風(fēng)格看:簡(jiǎn)約風(fēng)銷(xiāo)量最高,北歐風(fēng)次之,其他依次是中式、美式、日式等;
5. 可拆洗、轉(zhuǎn)角類(lèi)沙發(fā)銷(xiāo)量可觀,也是頗受消費(fèi)者青睞的。

【3】. 商品的價(jià)格分布情況分析:

分析發(fā)現(xiàn),有一些值太大,為了使可視化效果更加直觀,這里我們結(jié)合自身產(chǎn)品情況,選擇價(jià)格小于20000的商品。

代碼如下:

使用Python爬了4400條淘寶商品數(shù)據(jù),竟發(fā)現(xiàn)了這些“潛規(guī)則”_第15張圖片

使用Python爬了4400條淘寶商品數(shù)據(jù),竟發(fā)現(xiàn)了這些“潛規(guī)則”_第16張圖片

由圖表可知:

1. 商品數(shù)量隨著價(jià)格總體呈現(xiàn)下降階梯形勢(shì),價(jià)格越高,在售的商品越少;
2. 低價(jià)位商品居多,價(jià)格在500-1500之間的商品最多,1500-3000之間的次之,價(jià)格1萬(wàn)以上的商品較少;
3. 價(jià)格1萬(wàn)元以上的商品,在售商品數(shù)量差異不大。

【4】. 商品的銷(xiāo)量分布情況分析:?

使用Python爬了4400條淘寶商品數(shù)據(jù),竟發(fā)現(xiàn)了這些“潛規(guī)則”_第17張圖片

使用Python爬了4400條淘寶商品數(shù)據(jù),竟發(fā)現(xiàn)了這些“潛規(guī)則”_第18張圖片

同樣,為了使可視化效果更加直觀,這里我們選擇銷(xiāo)量大于100的商品。

代碼如下:

由圖表及數(shù)據(jù)可知:

1. 銷(xiāo)量100以上的商品僅占3.4% ,其中銷(xiāo)量100-200之間的商品最多,200-300之間的次之;
2. 銷(xiāo)量100-500之間,商品的數(shù)量隨著銷(xiāo)量呈現(xiàn)下降趨勢(shì),且趨勢(shì)陡峭,低銷(xiāo)量商品居多;
3. 銷(xiāo)量500以上的商品很少。

【5】. 不同價(jià)格區(qū)間的商品的平均銷(xiāo)量分布:

代碼如下:

使用Python爬了4400條淘寶商品數(shù)據(jù),竟發(fā)現(xiàn)了這些“潛規(guī)則”_第19張圖片

使用Python爬了4400條淘寶商品數(shù)據(jù),竟發(fā)現(xiàn)了這些“潛規(guī)則”_第20張圖片

由圖表可知:

1. 價(jià)格在1331-1680之間的商品平均銷(xiāo)量最高,951-1331之間的次之,9684元以上的最低;
2. 總體呈現(xiàn)先增后減的趨勢(shì),但最高峰處于相對(duì)低價(jià)位階段;
3. 說(shuō)明廣大消費(fèi)者對(duì)購(gòu)買(mǎi)沙發(fā)的需求更多處于低價(jià)位階段,在1680元以上 價(jià)位越高 平均銷(xiāo)量基本是越少。

【6】. 商品價(jià)格對(duì)銷(xiāo)量的影響分析:

同上,為了使可視化效果更加直觀,這里我們結(jié)合自身產(chǎn)品情況,選擇價(jià)格小于20000的商品。

代碼如下:

使用Python爬了4400條淘寶商品數(shù)據(jù),竟發(fā)現(xiàn)了這些“潛規(guī)則”_第21張圖片

使用Python爬了4400條淘寶商品數(shù)據(jù),竟發(fā)現(xiàn)了這些“潛規(guī)則”_第22張圖片

由圖表可知:

1. 總體趨勢(shì):隨著商品價(jià)格增多 其銷(xiāo)量減少,商品價(jià)格對(duì)其銷(xiāo)量影響很大;
2. 價(jià)格500-2500之間的少數(shù)商品銷(xiāo)量沖的很高,價(jià)格2500-5000之間的商品多數(shù)銷(xiāo)量偏低,少數(shù)相對(duì)較高,但價(jià)格5000以上的商品銷(xiāo)量均很低 沒(méi)有銷(xiāo)量突出的商品。

【7】. 商品價(jià)格對(duì)銷(xiāo)售額的影響分析:

代碼如下:

使用Python爬了4400條淘寶商品數(shù)據(jù),竟發(fā)現(xiàn)了這些“潛規(guī)則”_第23張圖片

由圖表可知:

1. 總體趨勢(shì):由線性回歸擬合線可以看出,商品銷(xiāo)售額隨著價(jià)格增長(zhǎng)呈現(xiàn)上升趨勢(shì);
2. 多數(shù)商品的價(jià)格偏低,銷(xiāo)售額也偏低;
3. 價(jià)格在0-20000的商品只有少數(shù)銷(xiāo)售額較高,價(jià)格2萬(wàn)-6萬(wàn)的商品只有3個(gè)銷(xiāo)售額較高,價(jià)格6-10萬(wàn)的商品有1個(gè)銷(xiāo)售額很高,而且是最大值。

【8】. 不同省份的商品數(shù)量分布:

代碼如下:

使用Python爬了4400條淘寶商品數(shù)據(jù),竟發(fā)現(xiàn)了這些“潛規(guī)則”_第24張圖片

使用Python爬了4400條淘寶商品數(shù)據(jù),竟發(fā)現(xiàn)了這些“潛規(guī)則”_第25張圖片

由圖表可知:

1. 廣東的最多,上海次之,江蘇第三,尤其是廣東的數(shù)量遠(yuǎn)超過(guò)江蘇、浙江、上海等地,說(shuō)明在沙發(fā)這個(gè)子類(lèi)目,廣東的店鋪占主導(dǎo)地位;

2. 江浙滬等地的數(shù)量差異不大,基本相當(dāng)。

【9】. 不同省份的商品平均銷(xiāo)量分布:

代碼如下:

使用Python爬了4400條淘寶商品數(shù)據(jù),竟發(fā)現(xiàn)了這些“潛規(guī)則”_第26張圖片

使用Python爬了4400條淘寶商品數(shù)據(jù),竟發(fā)現(xiàn)了這些“潛規(guī)則”_第27張圖片

熱力型地圖

使用Python爬了4400條淘寶商品數(shù)據(jù),竟發(fā)現(xiàn)了這些“潛規(guī)則”_第28張圖片

總結(jié)

以上所述是小編給大家介紹的使用Python爬了4400條淘寶商品數(shù)據(jù),竟發(fā)現(xiàn)了這些“潛規(guī)則”,希望對(duì)大家有所幫助,如果大家有任何疑問(wèn)請(qǐng)給我留言,小編會(huì)及時(shí)回復(fù)大家的。在此也非常感謝大家對(duì)腳本之家網(wǎng)站的支持!


更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號(hào)聯(lián)系: 360901061

您的支持是博主寫(xiě)作最大的動(dòng)力,如果您喜歡我的文章,感覺(jué)我的文章對(duì)您有幫助,請(qǐng)用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長(zhǎng)非常感激您!手機(jī)微信長(zhǎng)按不能支付解決辦法:請(qǐng)將微信支付二維碼保存到相冊(cè),切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對(duì)您有幫助就好】

您的支持是博主寫(xiě)作最大的動(dòng)力,如果您喜歡我的文章,感覺(jué)我的文章對(duì)您有幫助,請(qǐng)用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長(zhǎng)會(huì)非常 感謝您的哦!!!

發(fā)表我的評(píng)論
最新評(píng)論 總共0條評(píng)論