一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Python3網(wǎng)絡(luò)爬蟲(chóng)入門實(shí)戰(zhàn)解析

馬哥Linux運(yùn)維 ? 來(lái)源:未知 ? 作者:胡薇 ? 2018-06-26 11:52 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

網(wǎng)絡(luò)爬蟲(chóng)簡(jiǎn)介

網(wǎng)絡(luò)爬蟲(chóng),也叫網(wǎng)絡(luò)蜘蛛(WebSpider)。它根據(jù)網(wǎng)頁(yè)地址(URL)爬取網(wǎng)頁(yè)內(nèi)容,而網(wǎng)頁(yè)地址(URL)就是我們?cè)跒g覽器中輸入的網(wǎng)站鏈接。

在瀏覽器的地址欄輸入U(xiǎn)RL地址,在網(wǎng)頁(yè)處右鍵單擊,找到檢查。(不同瀏覽器的叫法不同,Chrome瀏覽器叫做檢查,F(xiàn)irefox瀏覽器叫做查看元素,但是功能都是相同的)

我們可以看到,右側(cè)出現(xiàn)了一大推代碼,這些代碼就叫做HTML。什么是HTML?舉個(gè)容易理解的例子:我們的基因決定了我們的原始容貌,服務(wù)器返回的HTML決定了網(wǎng)站的原始容貌。

為啥說(shuō)是原始容貌呢?因?yàn)槿丝梢哉莅?!扎心了,有木有?那網(wǎng)站也可以"整容"嗎?可以!請(qǐng)看下圖:

我能有這么多錢嗎?顯然不可能。我是怎么給網(wǎng)站"整容"的呢?就是通過(guò)修改服務(wù)器返回的HTML信息。我們每個(gè)人都是"整容大師",可以修改頁(yè)面信息。我們?cè)陧?yè)面的哪個(gè)位置點(diǎn)擊審查元素,瀏覽器就會(huì)為我們定位到相應(yīng)的HTML位置,進(jìn)而就可以在本地更改HTML信息。

再舉個(gè)小例子:我們都知道,使用瀏覽器"記住密碼"的功能,密碼會(huì)變成一堆小黑點(diǎn),是不可見(jiàn)的??梢宰屆艽a顯示出來(lái)嗎?可以,只需給頁(yè)面"動(dòng)個(gè)小手術(shù)"!以淘寶為例,在輸入密碼框處右鍵,點(diǎn)擊檢查。

可以看到,瀏覽器為我們自動(dòng)定位到了相應(yīng)的HTML位置。將下圖中的password屬性值改為text屬性值(直接在右側(cè)代碼處修改):

我們讓瀏覽器記住的密碼就這樣顯現(xiàn)出來(lái)了:

說(shuō)這么多,什么意思呢?瀏覽器就是作為客戶端從服務(wù)器端獲取信息,然后將信息解析,并展示給我們的。我們可以在本地修改HTML信息,為網(wǎng)頁(yè)"整容",但是我們修改的信息不會(huì)回傳到服務(wù)器,服務(wù)器存儲(chǔ)的HTML信息不會(huì)改變。刷新一下界面,頁(yè)面還會(huì)回到原本的樣子。這就跟人整容一樣,我們能改變一些表面的東西,但是不能改變我們的基因。

2、簡(jiǎn)單實(shí)例

網(wǎng)絡(luò)爬蟲(chóng)的第一步就是根據(jù)URL,獲取網(wǎng)頁(yè)的HTML信息。在Python3中,可以使用urllib.request和requests進(jìn)行網(wǎng)頁(yè)爬取。

urllib庫(kù)是python內(nèi)置的,無(wú)需我們額外安裝,只要安裝了Python就可以使用這個(gè)庫(kù)。

requests庫(kù)是第三方庫(kù),需要我們自己安裝。

requests庫(kù)強(qiáng)大好用,所以本文使用requests庫(kù)獲取網(wǎng)頁(yè)的HTML信息。requests庫(kù)的github地址:https://github.com/requests/requests

(1)requests安裝

在cmd中,使用如下指令安裝requests:

pip install requests

或者:

easy_install requests

(2)簡(jiǎn)單實(shí)例

requests庫(kù)的基礎(chǔ)方法如下:

官方中文教程地址:http://docs.python-requests.org/zh_CN/latest/user/quickstart.html

requests庫(kù)的開(kāi)發(fā)者為我們提供了詳細(xì)的中文教程,查詢起來(lái)很方便。本文不會(huì)對(duì)其所有內(nèi)容進(jìn)行講解,摘取其部分使用到的內(nèi)容,進(jìn)行實(shí)戰(zhàn)說(shuō)明。

首先,讓我們看下requests.get()方法,它用于向服務(wù)器發(fā)起GET請(qǐng)求,不了解GET請(qǐng)求沒(méi)有關(guān)系。我們可以這樣理解:get的中文意思是得到、抓住,那這個(gè)requests.get()方法就是從服務(wù)器得到、抓住數(shù)據(jù),也就是獲取數(shù)據(jù)。讓我們看一個(gè)例子(以 www.gitbook.cn為例)來(lái)加深理解:

# -*- coding:UTF-8 -*-import requestsif __name__ == '__main__': target = 'http://gitbook.cn/' req = requests.get(url=target) print(req.text)

requests.get()方法必須設(shè)置的一個(gè)參數(shù)就是url,因?yàn)槲覀兊酶嬖VGET請(qǐng)求,我們的目標(biāo)是誰(shuí),我們要獲取誰(shuí)的信息。運(yùn)行程序看下結(jié)果:

左側(cè)是我們程序獲得的結(jié)果,右側(cè)是我們?cè)趙ww.gitbook.cn網(wǎng)站審查元素獲得的信息。我們可以看到,我們已經(jīng)順利獲得了該網(wǎng)頁(yè)的HTML信息。這就是一個(gè)最簡(jiǎn)單的爬蟲(chóng)實(shí)例,可能你會(huì)問(wèn),我只是爬取了這個(gè)網(wǎng)頁(yè)的HTML信息,有什么用呢?客官稍安勿躁,接下來(lái)會(huì)有網(wǎng)絡(luò)小說(shuō)下載(靜態(tài)網(wǎng)站)和優(yōu)美壁紙下載(動(dòng)態(tài)網(wǎng)站)實(shí)戰(zhàn),敬請(qǐng)期待。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:最通俗的 Python3 網(wǎng)絡(luò)爬蟲(chóng)入門

文章出處:【微信號(hào):magedu-Linux,微信公眾號(hào):馬哥Linux運(yùn)維】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    Python數(shù)據(jù)爬蟲(chóng)學(xué)習(xí)內(nèi)容

    ,利用爬蟲(chóng),我們可以解決部分?jǐn)?shù)據(jù)問(wèn)題,那么,如何學(xué)習(xí)Python數(shù)據(jù)爬蟲(chóng)能?1.學(xué)習(xí)Python基礎(chǔ)知識(shí)并實(shí)現(xiàn)基本的爬蟲(chóng)過(guò)程一般獲取數(shù)據(jù)的過(guò)
    發(fā)表于 05-09 17:25

    0基礎(chǔ)入門Python爬蟲(chóng)實(shí)戰(zhàn)

    學(xué)習(xí)資料良莠不齊爬蟲(chóng)是一門實(shí)踐性的技能,沒(méi)有實(shí)戰(zhàn)的課程都是騙人的!所以這節(jié)Python爬蟲(chóng)實(shí)戰(zhàn)課,將幫到你!課程從0基礎(chǔ)
    發(fā)表于 07-25 09:28

    安裝python3的步驟

    我的只按照下面的鏈接到了安裝python3的前一步,安裝python3以及后面還沒(méi)弄。文章參考鏈環(huán)境說(shuō)明操作系統(tǒng):macOS High Sierra這是我電腦系統(tǒng)的版本,理論上支持Mac的所有版本燒錄代碼到單片機(jī)安裝sdccsdcc是用于Intel 8051 Maxim
    發(fā)表于 11-19 06:43

    Python爬蟲(chóng)簡(jiǎn)介與軟件配置

    Python爬蟲(chóng)練習(xí)一、爬蟲(chóng)簡(jiǎn)介1. 介紹2. 軟件配置二、爬取南陽(yáng)理工OJ題目三、爬取學(xué)校信息通知四、總結(jié)五、參考一、爬蟲(chóng)簡(jiǎn)介1. 介紹網(wǎng)絡(luò)
    發(fā)表于 01-11 06:32

    python網(wǎng)絡(luò)爬蟲(chóng)概述

    的數(shù)據(jù),從而識(shí)別出某用戶是否為水軍學(xué)習(xí)爬蟲(chóng)前的技術(shù)準(zhǔn)備(1). Python基礎(chǔ)語(yǔ)言: 基礎(chǔ)語(yǔ)法、運(yùn)算符、數(shù)據(jù)類型、流程控制、函數(shù)、對(duì)象 模塊、文件操作、多線程、網(wǎng)絡(luò)編程 … 等(2). W3
    發(fā)表于 03-21 16:51

    詳細(xì)用Python網(wǎng)絡(luò)爬蟲(chóng)

    詳細(xì)用Python網(wǎng)絡(luò)爬蟲(chóng)
    發(fā)表于 09-07 08:40 ?32次下載
    詳細(xì)用<b class='flag-5'>Python</b>寫<b class='flag-5'>網(wǎng)絡(luò)</b><b class='flag-5'>爬蟲(chóng)</b>

    快速兩天掌握Python3開(kāi)發(fā)

    快速兩天掌握Python3開(kāi)發(fā)
    發(fā)表于 09-07 09:09 ?28次下載
    快速兩天掌握<b class='flag-5'>Python3</b>開(kāi)發(fā)

    python爬蟲(chóng)入門教程之python爬蟲(chóng)視頻教程分布式爬蟲(chóng)打造搜索引擎

    本文檔的主要內(nèi)容詳細(xì)介紹的是python爬蟲(chóng)入門教程之python爬蟲(chóng)視頻教程分布式爬蟲(chóng)打造搜索
    發(fā)表于 08-28 15:32 ?30次下載

    Python爬蟲(chóng)入門知識(shí):解析數(shù)據(jù)篇

    解析數(shù)據(jù),其用途就是在爬蟲(chóng)過(guò)程中將服務(wù)器返回的HTML源代碼轉(zhuǎn)換為我們能讀懂的格式。那么,接下來(lái)就正式進(jìn)入到解析數(shù)據(jù)篇的內(nèi)容啦。
    的頭像 發(fā)表于 06-28 16:38 ?3079次閱讀
    <b class='flag-5'>Python</b><b class='flag-5'>爬蟲(chóng)</b><b class='flag-5'>入門</b>知識(shí):<b class='flag-5'>解析</b>數(shù)據(jù)篇

    如何使用Python3檢查文件是否存在

    檢查文件是否存在的方法, 在Python3 文件操作中經(jīng)常被用到, 因?yàn)?,只有文件存在?我們才可以對(duì)文件進(jìn)行下一步處理, 那么,常用的檢查文件存在的方法有哪些呢?以下是Python3 檢查文件是否存在的幾種方法。
    發(fā)表于 10-26 17:08 ?14次下載
    如何使用<b class='flag-5'>Python3</b>檢查文件是否存在

    Python網(wǎng)絡(luò)爬蟲(chóng)

    Python網(wǎng)絡(luò)爬蟲(chóng)的方法說(shuō)明。
    發(fā)表于 06-01 11:55 ?21次下載

    《深入Python3》中文版pdf

    《深入Python3》中文版pdf
    發(fā)表于 02-28 09:45 ?0次下載

    利用Python編寫簡(jiǎn)單網(wǎng)絡(luò)爬蟲(chóng)實(shí)例

    利用 Python編寫簡(jiǎn)單網(wǎng)絡(luò)爬蟲(chóng)實(shí)例2 實(shí)驗(yàn)環(huán)境python版本:3.3.5(2.7下報(bào)錯(cuò)
    發(fā)表于 02-24 11:05 ?14次下載

    Python3與Arduino通信

    電子發(fā)燒友網(wǎng)站提供《Python3與Arduino通信.zip》資料免費(fèi)下載
    發(fā)表于 06-26 14:39 ?0次下載
    <b class='flag-5'>Python3</b>與Arduino通信

    Python2與Python3的差異

    Python2與Python3是兩個(gè)不同的版本,它們?cè)谡Z(yǔ)法、功能和性能等方面存在一些差異。下面是對(duì)Python2和Python3的詳盡、詳實(shí)、細(xì)致的比較,分為以下幾個(gè)方面: 語(yǔ)法差異:
    的頭像 發(fā)表于 11-23 16:48 ?1595次閱讀