黄色网页视频 I 影音先锋日日狠狠久久 I 秋霞午夜毛片 I 秋霞一二三区 I 国产成人片无码视频 I 国产 精品 自在自线 I av免费观看网站 I 日本精品久久久久中文字幕5 I 91看视频 I 看全色黄大色黄女片18 I 精品不卡一区 I 亚洲最新精品 I 欧美 激情 在线 I 人妻少妇精品久久 I 国产99视频精品免费专区 I 欧美影院 I 欧美精品在欧美一区二区少妇 I av大片网站 I 国产精品黄色片 I 888久久 I 狠狠干最新 I 看看黄色一级片 I 黄色精品久久 I 三级av在线 I 69色综合 I 国产日韩欧美91 I 亚洲精品偷拍 I 激情小说亚洲图片 I 久久国产视频精品 I 国产综合精品一区二区三区 I 色婷婷国产 I 最新成人av在线 I 国产私拍精品 I 日韩成人影音 I 日日夜夜天天综合

Python爬蟲之爬取小說

系統 2488 0

(^_?)☆本喵的放松方式是看小說,而且類型不限,屬于偏好成謎的那一種。所以從爬取完天氣預報開始,我就開始想著爬取小說,編寫了一個還不算完善的爬取小說程序,期待你們的完善。

小說來源:?

努努書坊:https://www.kanunu8.com/?

山海經:https://www.kanunu8.com/book3/7766/index.html

Python爬蟲之爬取小說_第1張圖片

解析頁面源代碼:?

Python爬蟲之爬取小說_第2張圖片

在頁面源代碼中我們可以看到?url+1為每章節的內容鏈接

  • 小說名字:r' (.+) '
  • 章節目錄:r' (.+) '
  • 小說內容:r'

    (.+)

    '

爬取代碼:?

            
              import re
import requests

url="https://www.kanunu8.com/book3/7766/"
txt=requests.get(url).content.decode("gbk")

m1=re.compile(r'
              
                
                  (.+)
                
              
              ')
print(m1.findall(txt)[0].center(23,'='))

m2=re.compile(r'
              
                (.+)
              
              ')
raw=m2.findall(txt)

SHJ=[(i[2],url+i[1]) for i in raw]	#i[2]為每一章節標題,url+i[1]為每章節的內容鏈接
print("小說目錄已加載完畢!")

m3=re.compile(r'
              

(.+)

',re.S) #每章節小說內容 m4=re.compile(r"
") #
小說內容中的符號 with open("山海經.txt","a") as f: for i in SHJ: print("開始下載--->",i[0]) t1=requests.get(i[1]).content.decode("gbk") #每章節小說內容獲取 nr=m3.findall(t1) #[0] nrl=m4.sub('',nr[0]) f.write(i[0]) f.write("\n") f.write(nrl) f.write("\n\n") print("下載完畢!")

執行結果:?

Python爬蟲之爬取小說_第3張圖片

?

?


更多文章、技術交流、商務合作、聯系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號聯系: 360901061

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對您有幫助就好】

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會非常 感謝您的哦?。?!

發表我的評論
最新評論 總共0條評論