黄色网页视频 I 影音先锋日日狠狠久久 I 秋霞午夜毛片 I 秋霞一二三区 I 国产成人片无码视频 I 国产 精品 自在自线 I av免费观看网站 I 日本精品久久久久中文字幕5 I 91看视频 I 看全色黄大色黄女片18 I 精品不卡一区 I 亚洲最新精品 I 欧美 激情 在线 I 人妻少妇精品久久 I 国产99视频精品免费专区 I 欧美影院 I 欧美精品在欧美一区二区少妇 I av大片网站 I 国产精品黄色片 I 888久久 I 狠狠干最新 I 看看黄色一级片 I 黄色精品久久 I 三级av在线 I 69色综合 I 国产日韩欧美91 I 亚洲精品偷拍 I 激情小说亚洲图片 I 久久国产视频精品 I 国产综合精品一区二区三区 I 色婷婷国产 I 最新成人av在线 I 国产私拍精品 I 日韩成人影音 I 日日夜夜天天综合

Python實現(xiàn)的爬取豆瓣電影信息功能案例

系統(tǒng) 2128 0

本文實例講述了Python實現(xiàn)的爬取豆瓣電影信息功能。分享給大家供大家參考,具體如下:

本案例的任務(wù)為,爬取豆瓣電影top250的電影信息(包括序號、電影名稱、導(dǎo)演和主演、評分以及經(jīng)典臺詞),并將信息作為字典形式保存進(jìn)txt文件。這里只用到requests庫,沒有用到beautifulsoup庫

step1:首先獲取每一頁的源代碼,用requests.get函數(shù)獲取,為了防止請求錯誤,使用try...except..

            
def getpage(url):
  try:
    res=requests.get(url)
    if res.status_code==200:
      return res.text
    return None
  except RequestException:
    return None


          

step2:做每一頁的網(wǎng)址解析,打開原網(wǎng)址https://movie.douban.com/top250?,查看網(wǎng)頁源代碼,可以看到每一個電影的源代碼都是從

  • 開始,在
  • 處結(jié)束,寫好正則表達(dá)式以后爬到的列表的每一條item都有五個元素,因此將其寫成字典的形式,這里用到y(tǒng)ield函數(shù)(關(guān)于yield函數(shù)的用法,廖老師的有一篇文章比較好懂https://www.ibm.com/developerworks/cn/opensource/os-cn-python-yield/)

    Python實現(xiàn)的爬取豆瓣電影信息功能案例_第1張圖片

    對單個網(wǎng)頁的進(jìn)行解析的代碼如下:

                
    def parsepage(html):
      pat=re.compile('
                
  • .*? (.*?) .*? (.*?) ' +'(.*?)

    .*?property="v:average">(.*?).*? (.*?) .*?
  • ',re.S) items=re.findall(pat,html) for item in items: yield{ 'index':item[0], 'title':item[1], 'stars':item[2].strip(), 'score':item[3], 'concept':item[4] }

    下面的代碼是將每一個item寫入文件,這里encoding='utf-8' 和ensure_ascii=False都是使寫入文件時中文能保持不變,json.dumps可以將(字典)對象轉(zhuǎn)化成字符串(但前面要先import json),with open的第二個參數(shù)為a,表示每次寫入時,是往后追加(續(xù)接),而不是后一次寫入將之前內(nèi)容覆蓋,\n是指要每一次寫入一個item之后要換行。

                
    def write_tofile(content):
      with open('doubanfilms.txt','a',encoding='utf-8' ) as f:
        f.write(json.dumps(content,ensure_ascii=False)+'\n')
        f.close()
    
    
              

    最后,需要用循環(huán)語句將每一頁(共10頁)內(nèi)容都進(jìn)行以上操作。這里,第二頁的網(wǎng)址就是在第一頁的url上加上一個start=25, 第三頁是加上start=50,也就是每一頁的start=為25*i。最后一段代碼如下:

                
    def main():
      url="https://movie.douban.com/top250?"
      for i in range(0,9):
        url_i=url+'start='+str(25*i)
        html_i=getpage(url_i)
        for item in parsepage(html_i):
          print(item)
          write_tofile(item)
    if __name__ == '__main__':
      main()
    
    
              

    當(dāng)然,這一段代碼還有一種寫法:

                
    def main(start):
      url="https://movie.douban.com/top250?start="+str(start)
      html=getpage(url)
      for item in parsepage(html):
        print(item)
        write_tofile(item)
    if __name__ == '__main__':
      for i in range(10):
        main(i*10)
    
    
              

    如果想讓你的程序跑的更快,可以用多線程爬蟲(當(dāng)然這里其實沒有必要):

                
    #在最開始加載Pool包
    from multiprocessing import Pool
    #最后的執(zhí)行段改為:
    if __name__ == '__main__':
      for i in range(10):
        main(i*10)
      pool=Pool() #在循環(huán)外寫
      pool.map(main,[i*10 for i in range (10)])
    
    
              

    更多關(guān)于Python相關(guān)內(nèi)容可查看本站專題:《Python Socket編程技巧總結(jié)》、《Python正則表達(dá)式用法總結(jié)》、《Python數(shù)據(jù)結(jié)構(gòu)與算法教程》、《Python函數(shù)使用技巧總結(jié)》、《Python字符串操作技巧匯總》、《Python入門與進(jìn)階經(jīng)典教程》及《Python文件與目錄操作技巧匯總》

    希望本文所述對大家Python程序設(shè)計有所幫助。


    更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主

    微信掃碼或搜索:z360901061

    微信掃一掃加我為好友

    QQ號聯(lián)系: 360901061

    您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機(jī)微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

    【本文對您有幫助就好】

    您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會非常 感謝您的哦!!!

    發(fā)表我的評論
    最新評論 總共0條評論