亚瑟在线观看精品视频,婷婷激情五月天综合备案

網(wǎng)絡(luò)爬蟲(chóng)簡(jiǎn)介

網(wǎng)絡(luò)爬蟲(chóng)，也叫網(wǎng)絡(luò)蜘蛛(WebSpider)。它根據(jù)網(wǎng)頁(yè)地址(URL)爬取網(wǎng)頁(yè)內(nèi)容，而網(wǎng)頁(yè)地址(URL)就是我們?cè)跒g覽器中輸入的網(wǎng)站鏈接。

在瀏覽器的地址欄輸入U(xiǎn)RL地址，在網(wǎng)頁(yè)處右鍵單擊，找到檢查。(不同瀏覽器的叫法不同，Chrome瀏覽器叫做檢查，F(xiàn)irefox瀏覽器叫做查看元素，但是功能都是相同的)

我們可以看到，右側(cè)出現(xiàn)了一大推代碼，這些代碼就叫做HTML。什么是HTML？舉個(gè)容易理解的例子：我們的基因決定了我們的原始容貌，服務(wù)器返回的HTML決定了網(wǎng)站的原始容貌。

為啥說(shuō)是原始容貌呢？因?yàn)槿丝梢哉莅?！扎心了，有木有？那網(wǎng)站也可以"整容"嗎？可以！請(qǐng)看下圖：

我能有這么多錢嗎？顯然不可能。我是怎么給網(wǎng)站"整容"的呢？就是通過(guò)修改服務(wù)器返回的HTML信息。我們每個(gè)人都是"整容大師"，可以修改頁(yè)面信息。我們?cè)陧?yè)面的哪個(gè)位置點(diǎn)擊審查元素，瀏覽器就會(huì)為我們定位到相應(yīng)的HTML位置，進(jìn)而就可以在本地更改HTML信息。

再舉個(gè)小例子：我們都知道，使用瀏覽器"記住密碼"的功能，密碼會(huì)變成一堆小黑點(diǎn)，是不可見(jiàn)的?？梢宰屆艽a顯示出來(lái)嗎？可以，只需給頁(yè)面"動(dòng)個(gè)小手術(shù)"！以淘寶為例，在輸入密碼框處右鍵，點(diǎn)擊檢查。

可以看到，瀏覽器為我們自動(dòng)定位到了相應(yīng)的HTML位置。將下圖中的password屬性值改為text屬性值(直接在右側(cè)代碼處修改)：

我們讓瀏覽器記住的密碼就這樣顯現(xiàn)出來(lái)了：

說(shuō)這么多，什么意思呢？瀏覽器就是作為客戶端從服務(wù)器端獲取信息，然后將信息解析，并展示給我們的。我們可以在本地修改HTML信息，為網(wǎng)頁(yè)"整容"，但是我們修改的信息不會(huì)回傳到服務(wù)器，服務(wù)器存儲(chǔ)的HTML信息不會(huì)改變。刷新一下界面，頁(yè)面還會(huì)回到原本的樣子。這就跟人整容一樣，我們能改變一些表面的東西，但是不能改變我們的基因。

2、簡(jiǎn)單實(shí)例

網(wǎng)絡(luò)爬蟲(chóng)的第一步就是根據(jù)URL，獲取網(wǎng)頁(yè)的HTML信息。在Python3中，可以使用urllib.request和requests進(jìn)行網(wǎng)頁(yè)爬取。

urllib庫(kù)是python內(nèi)置的，無(wú)需我們額外安裝，只要安裝了Python就可以使用這個(gè)庫(kù)。

requests庫(kù)是第三方庫(kù)，需要我們自己安裝。

requests庫(kù)強(qiáng)大好用，所以本文使用requests庫(kù)獲取網(wǎng)頁(yè)的HTML信息。requests庫(kù)的github地址：https://github.com/requests/requests

(1)requests安裝

在cmd中，使用如下指令安裝requests：

pip install requests

或者：

easy_install requests

(2)簡(jiǎn)單實(shí)例

requests庫(kù)的基礎(chǔ)方法如下：

官方中文教程地址：http://docs.python-requests.org/zh_CN/latest/user/quickstart.html

requests庫(kù)的開(kāi)發(fā)者為我們提供了詳細(xì)的中文教程，查詢起來(lái)很方便。本文不會(huì)對(duì)其所有內(nèi)容進(jìn)行講解，摘取其部分使用到的內(nèi)容，進(jìn)行實(shí)戰(zhàn)說(shuō)明。

首先，讓我們看下requests.get()方法，它用于向服務(wù)器發(fā)起GET請(qǐng)求，不了解GET請(qǐng)求沒(méi)有關(guān)系。我們可以這樣理解：get的中文意思是得到、抓住，那這個(gè)requests.get()方法就是從服務(wù)器得到、抓住數(shù)據(jù)，也就是獲取數(shù)據(jù)。讓我們看一個(gè)例子(以 www.gitbook.cn為例)來(lái)加深理解：

# -*- coding:UTF-8 -*-import requestsif __name__ == '__main__': target = 'http://gitbook.cn/' req = requests.get(url=target) print(req.text)

requests.get()方法必須設(shè)置的一個(gè)參數(shù)就是url，因?yàn)槲覀兊酶嬖VGET請(qǐng)求，我們的目標(biāo)是誰(shuí)，我們要獲取誰(shuí)的信息。運(yùn)行程序看下結(jié)果：

左側(cè)是我們程序獲得的結(jié)果，右側(cè)是我們?cè)趙ww.gitbook.cn網(wǎng)站審查元素獲得的信息。我們可以看到，我們已經(jīng)順利獲得了該網(wǎng)頁(yè)的HTML信息。這就是一個(gè)最簡(jiǎn)單的爬蟲(chóng)實(shí)例，可能你會(huì)問(wèn)，我只是爬取了這個(gè)網(wǎng)頁(yè)的HTML信息，有什么用呢？客官稍安勿躁，接下來(lái)會(huì)有網(wǎng)絡(luò)小說(shuō)下載(靜態(tài)網(wǎng)站)和優(yōu)美壁紙下載(動(dòng)態(tài)網(wǎng)站)實(shí)戰(zhàn)，敬請(qǐng)期待。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

網(wǎng)絡(luò)爬蟲(chóng)

網(wǎng)絡(luò)爬蟲(chóng)

+關(guān)注

關(guān)注
1

文章
52

瀏覽量
8945
python3

python3

+關(guān)注

關(guān)注
0

文章
18

瀏覽量
4076

原文標(biāo)題：最通俗的 Python3 網(wǎng)絡(luò)爬蟲(chóng)入門

文章出處：【微信號(hào)：magedu-Linux，微信公眾號(hào)：馬哥Linux運(yùn)維】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

搜索歷史

Python3網(wǎng)絡(luò)爬蟲(chóng)入門實(shí)戰(zhàn)解析

評(píng)論