25、Python快速開發分布式搜索引擎Scrapy精講—Requests請求

系統 2019-09-27 17:54:11 1887 0

【百度云搜索，搜各種資料:http://www.lqkweb.com】

【搜網盤，搜各種資料:http://www.swpan.cn】

Requests請求

Requests請求就是我們在爬蟲文件寫的 Requests()方法，也就是提交一個請求地址， Requests請求是我們自定義的 * *

Requests()方法提交一個請求

　　參數：

　　url= ?字符串類型url地址

　　callback= 回調函數名稱

　　method= 字符串類型請求方式，如果GET,POST

　　headers= 字典類型的，瀏覽器用戶代理

　　cookies= 設置cookies

　　meta= 字典類型鍵值對，向回調函數直接傳一個指定值

　　encoding= 設置網頁編碼

　　priority= 默認為0，如果設置的越高，越優先調度

　　dont_filter= 默認為False，如果設置為真，會過濾掉當前url

#?-*-?coding:?utf-8?-*- import?scrapy from?scrapy.http?import?Request,FormRequest import?re class?PachSpider(scrapy.Spider):????????????????????????????#定義爬蟲類，必須繼承scrapy.Spider ????name?=?'pach'???????????????????????????????????????????#設置爬蟲名稱 ????allowed_domains?=?['www.luyin.org/']????????????????????#爬取域名 ????#?start_urls?=?['']?????????????????????????????????????#爬取網址,只適于不需要登錄的請求，因為沒法設置cookie等信息 ????header?=?{'User-Agent':'Mozilla/5.0?(Windows?NT?10.0;?WOW64;?rv:54.0)?Gecko/20100101?Firefox/54.0'}??#設置瀏覽器用戶代理 ????def?start_requests(self):????#起始url函數，會替換start_urls ????????"""第一次請求一下登錄頁面，設置開啟cookie使其得到cookie，設置回調函數""" ????????return?[Request( ????????????url='http://www.luyin.org/', ????????????headers=self.header, ????????????meta={'cookiejar':1},???????#開啟Cookies記錄，將Cookies傳給回調函數 ????????????callback=self.parse ????????)] ????def?parse(self,?response): ????????title?=?response.xpath('/html/head/title/text()').extract() ????????print(title)

?

Response響應

Response響應是由downloader返回的響應

Response響應參數
　　headers 返回響應頭
　　status 返回狀態嗎
　　body 返回頁面內容，字節類型
　　url 返回抓取url

#?-*-?coding:?utf-8?-*- import?scrapy from?scrapy.http?import?Request,FormRequest import?re class?PachSpider(scrapy.Spider):????????????????????????????#定義爬蟲類，必須繼承scrapy.Spider ????name?=?'pach'???????????????????????????????????????????#設置爬蟲名稱 ????allowed_domains?=?['www.luyin.org/']????????????????????#爬取域名 ????#?start_urls?=?['']?????????????????????????????????????#爬取網址,只適于不需要登錄的請求，因為沒法設置cookie等信息 ????header?=?{'User-Agent':'Mozilla/5.0?(Windows?NT?10.0;?WOW64;?rv:54.0)?Gecko/20100101?Firefox/54.0'}??#設置瀏覽器用戶代理 ????def?start_requests(self):????#起始url函數，會替換start_urls ????????"""第一次請求一下登錄頁面，設置開啟cookie使其得到cookie，設置回調函數""" ????????return?[Request( ????????????url='http://www.luyin.org/', ????????????headers=self.header, ????????????meta={'cookiejar':1},???????#開啟Cookies記錄，將Cookies傳給回調函數 ????????????callback=self.parse ????????)] ????def?parse(self,?response): ????????title?=?response.xpath('/html/head/title/text()').extract() ????????print(title) ????????print(response.headers) ????????print(response.status) ????????#?print(response.body) ????????print(response.url)

更多文章、技術交流、商務合作、聯系博主

微信掃碼或搜索：z360901061

微信掃一掃加我為好友

QQ號聯系： 360901061

您的支持是博主寫作最大的動力，如果您喜歡我的文章，感覺我的文章對您有幫助，請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧，狠狠點擊下面給點支持吧，站長非常感激您！手機微信長按不能支付解決辦法：請將微信支付二維碼保存到相冊，切換到微信，然后點擊微信右上角掃一掃功能，選擇支付二維碼完成支付。

【本文對您有幫助就好】元

2元

5元

10元

20元

自定義

您的支持是博主寫作最大的動力，如果您喜歡我的文章，感覺我的文章對您有幫助，請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧，站長會非常感謝您的哦！！！

python中的break、continue、exit()、pass全面解析 Python @property使用方法解析

發表我的評論

表情

最新評論總共0條評論

站內搜索

加入交流

1. 手機QQ掃左側二維碼2. 搜Q群：542395358 3. 點擊

1. 手機QQ掃左側二維碼2. 搜Q群：922215567 3. 點擊

1.手機微信掃左側二維碼 2. 微信中搜索：上海加盾信息科技有限公司

1.手機微信掃左側二維碼 2. 微信搜索小程序：張軍博客

1.手機微信掃左側二維碼 2. 微信搜索小程序：上海加盾信息科技有限公司

關注企業釘釘

關注企業微信

微信掃一掃添加張軍網站微信群

微信掃一掃加我為好友

標簽云

金融業務 (4)教育資料 (10)Java (901)C++ (86)C# (215)Python (9022)Oracle (911)SqlServer (681)MySql (600)DB2 (33)PostgreSql (23)Tomcat (825)Weblogic (12)Windows (214)Linux (647)VMware (32)Ubuntu (194)ASP.NET (198)Android (681)IOS (75)Hive (45)Hadoop (50)Hbase (9)Spark (4)redis (78)PHP (145)Jquery (174)Javascript (168)NoSQL (6)CSS (127)資料下載 (25)交易系統 (9)java工具類 (32)其它 (7)秕處理 (6)

友情鏈接
申請友鏈

張軍博客

上海加盾信息科技有限公司
股票002162悅心健康資金分析
張軍博客
張軍博客-網址導航
張軍java工具類
快手號出售
張軍博客-SpringBoot入門

51鏈網站

51鏈首頁

51鏈注冊頁

廣告出售頁

友鏈出租頁

軟文出售頁

友鏈交換頁