用Python爬去百度貼吧圖片并保存到本地

描述：用Python爬去百度貼吧圖片并保存到本地。本人剛學(xué)爬蟲還不是很熟練，其中難點(diǎn)在于正則表達(dá)式的理解；

說明

獲取整個(gè)頁面數(shù)據(jù)

Urllib 模塊提供了讀取web頁面數(shù)據(jù)的接口，我們可以像讀取本地文件一樣讀取www和ftp上的數(shù)據(jù)。首先，我們定義了一個(gè)getHtml()函數(shù):

urllib.urlopen()方法用于打開一個(gè)URL地址。

read()方法用于讀取URL上的數(shù)據(jù)，向getHtml()函數(shù)傳遞一個(gè)網(wǎng)址，并把整個(gè)頁面下載下來。執(zhí)行程序就會(huì)把整個(gè)網(wǎng)頁打印輸出。

篩選頁面中想要的數(shù)據(jù)

Python 提供了非常強(qiáng)大的正則表達(dá)式，我們需要先要了解一點(diǎn)python 正則表達(dá)式的知識(shí)才行。假如我們百度貼吧找到了幾張漂亮的壁紙，通過到前段查看工具。找到了圖片的地址，如：src=”http://imgsrc.baidu.com/forum……jpg”pic_ext=”jpeg”

我們又創(chuàng)建了getImg()函數(shù)，用于在獲取的整個(gè)頁面中篩選需要的圖片連接。re模塊主要包含了正則表達(dá)式：

re.compile() 可以把正則表達(dá)式編譯成一個(gè)正則表達(dá)式對(duì)象.

re.findall() 方法讀取html 中包含 imgre（正則表達(dá)式）的數(shù)據(jù)。

運(yùn)行腳本將得到整個(gè)頁面中包含圖片的URL地址。

將頁面篩選的數(shù)據(jù)保存到本地

通過一個(gè)for循環(huán)對(duì)獲取的圖片連接進(jìn)行遍歷，為了使圖片的文件名看上去更規(guī)范，對(duì)其進(jìn)行重命名，命名規(guī)則通過x變量加1。保存的位置默認(rèn)為程序的存放目錄。

程序運(yùn)行完成，將在目錄下看到下載到本地的文件。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

python

python

+關(guān)注

關(guān)注
56

文章
4827

瀏覽量
86739
爬蟲

爬蟲

+關(guān)注

關(guān)注
0

文章
83

瀏覽量
7505

原文標(biāo)題：Python爬取百度貼吧圖片

文章出處：【微信號(hào)：magedu-Linux，微信公眾號(hào)：馬哥Linux運(yùn)維】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

馬哥Linux運(yùn)維
專欄

0 文章 0 閱讀 0 粉絲 0 點(diǎn)贊

關(guān)注個(gè)人主頁

Hot Linux如何使用XFS?
Hot keepalived及LVS概述,KeepAlived工作原理

New Redis集群部署配置詳解
New Linux系統(tǒng)中網(wǎng)絡(luò)配置詳解

精選推薦
更多

文章

資料

帖子

基于板級(jí)封裝的異構(gòu)集成詳解

深圳市賽姆烯金科技有限公司
23分鐘前

46 閱讀

泰克示波器在氮氧傳感器測(cè)試中的應(yīng)用

泰克科技
28分鐘前

61 閱讀

飛凌嵌入式亮相第九屆瑞芯微開發(fā)者大會(huì)：AIoT模型創(chuàng)新重做產(chǎn)品

飛凌嵌入式
1小時(shí)前

135 閱讀

如何管理線束到 PCB 接口的 EMI

廣東萬連科技有限公司
4小時(shí)前

118 閱讀

【案例集錦】功率放大器在電磁測(cè)試領(lǐng)域研究中的應(yīng)用

Aigtek安泰電子
17小時(shí)前

112 閱讀

Mongoose OS物聯(lián)網(wǎng)固件開發(fā)框架

人走了
2.21 MB

免費(fèi)

0下載

Nagios WAS WebSphere監(jiān)控

賈小龍
1.05 MB

2積分

1下載

JumpServer開源堡壘機(jī)

糖栗子
6.57 MB

2積分

2下載

eBPFSnitch基于eBPF和NFQUEUE的Linux防火墻

深圳市正商電子科有限公司
0.27 MB

2積分

1下載

具有3種模式的復(fù)古未來主義RGB LED腕表

從未擁有
0.16 MB

免費(fèi)

0下載

【BPI-CanMV-K230D-Zero開發(fā)板體驗(yàn)】+溫度大氣壓檢測(cè)及顯示

jinglixixi
12小時(shí)前

100 閱讀

【RA-Eco-RA6M4開發(fā)板評(píng)測(cè)】+01+開箱測(cè)評(píng)+UART+PWM+LED

jf_18702540
1天前

103 閱讀

【VisionFive 2單板計(jì)算機(jī)試用體驗(yàn)】2、打造復(fù)古游戲機(jī)（Batocera鏡像+FBNeo虛擬機(jī)，多款游戲ROM分享）

左岸cpx
1天前

110 閱讀

【BPI-CanMV-K230D-Zero開發(fā)板體驗(yàn)】+兩種開發(fā)板間的比較

jinglixixi
1天前

92 閱讀

【Milk-V Duo S 開發(fā)板免費(fèi)體驗(yàn)】Milk-V DuoS之使用Arduino開發(fā)小核

winter91
1天前

96 閱讀

推薦專欄
更多

企業(yè)產(chǎn)品

資料

方案
更多

搜索歷史

用Python爬去百度貼吧圖片并保存到本地

評(píng)論