一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Newspaper安裝和使用教程

科技綠洲 ? 來源:Python實(shí)用寶典 ? 作者:Python實(shí)用寶典 ? 2023-10-17 10:36 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Newspaper 是一個(gè)很棒的python庫,用于提取和整理文章。

它有以下的優(yōu)點(diǎn):

  • 多線程文章下載框架
  • 識(shí)別新聞網(wǎng)址
  • 從html提取文本
  • 從html提取頂部圖像
  • 從html提取所有圖像
  • 從文本中提取關(guān)鍵字
  • 自動(dòng)提取摘要
  • 自動(dòng)提取作者
  • 自動(dòng)提取 Google 趨勢(shì)詞

下面是這個(gè)開源模塊的安裝和使用教程。

1.準(zhǔn)備

開始之前,你要確保Python和pip已經(jīng)成功安裝在電腦上,如果沒有,可以訪問這篇文章:超詳細(xì)Python安裝指南 進(jìn)行安裝。

如果你用Python的目的是數(shù)據(jù)分析,可以直接安裝Anaconda:Python數(shù)據(jù)分析與挖掘好幫手—Anaconda,它內(nèi)置了Python和pip.

此外,推薦大家用VSCode編輯器,它有許多的優(yōu)點(diǎn):Python 編程的最好搭檔—VSCode 詳細(xì)指南。

請(qǐng)選擇以下任一種方式輸入命令安裝依賴

  1. Windows 環(huán)境 打開 Cmd (開始-運(yùn)行-CMD)。
  2. MacOS 環(huán)境 打開 Terminal (command+空格輸入Terminal)。
  3. 如果你用的是 VSCode編輯器 或 Pycharm,可以直接使用界面下方的Terminal.
pip3 install newspaper3k

遇到任何安裝問題,可以在本文下方留言框或Python實(shí)用寶典公眾號(hào)上留言,也可以訪問項(xiàng)目官網(wǎng)查看相關(guān)安裝指南:
https://github.com/codelucas/newspaper

2.基本使用

Newspaper 中是以文章為對(duì)象實(shí)現(xiàn)各種操作的,比如下載指定新聞的HTML:

from newspaper import Article

url = 'http://fox13now.com/2013/12/30/new-year-new-laws-obamacare-pot-guns-and-drones/'

# 根據(jù)url生成Article對(duì)象
article = Article(url)

# 下載文章
article.download()

# 文章的HTML
article.html
#'< !DOCTYPE HTML >< html itemscope itemtype="http://...'

通過解析新聞和文章,你能獲得此文章的作者、發(fā)布時(shí)間、摘要、頂部圖像、所有圖像、多媒體等:

"""
Python 實(shí)用寶典
《Newspaper — 一個(gè)能下載38種語言新聞文章的 Python 模塊》
"""

# 解析文章
article.parse()

# 獲取文章作者
article.authors
# ['Leigh Ann Caldwell', 'John Honway']

# 獲取文章發(fā)布日期
article.publish_date
# datetime.datetime(2013, 12, 30, 0, 0)

# 獲取文章文本
article.text
# 'Washington (CNN) -- Not everyone subscribes to a New Year's resolution...'

# 獲取頂部圖像
article.top_image
# 'http://someCDN.com/blah/blah/blah/file.png'

# 獲取文章多媒體資源
article.movies
# ['http://youtube.com/path/to/link.com', ...]

除此之外,該模塊還附帶了 NLP 功能,你能用它來識(shí)別文章關(guān)鍵字并自動(dòng)提取摘要:

# 使用 NLP 解析
article.nlp()

# 獲取文章關(guān)鍵詞
article.keywords
# ['New Years', 'resolution', ...]

# 獲取文章摘要
article.summary
# 'The study shows that 93% of people ...'

你看,這個(gè)工具不無敵嗎?它還能提取某個(gè)網(wǎng)站的所有新聞文章,比如我想提取CNN的新聞文章:

import newspaper

cnn_paper = newspaper.build('http://cnn.com')

for article in cnn_paper.articles:
    print(article.url)
# http://www.cnn.com/2013/11/27/justice/tucson-arizona-captive-girls/
# http://www.cnn.com/2013/12/11/us/texas-teen-dwi-wreck/index.html

在此之上,你還能拿到CNN的其他新聞門戶分類:

for category in cnn_paper.category_urls():
    print(category)

# http://lifestyle.cnn.com
# http://cnn.com/world
# http://tech.cnn.com
# ...

許多中文媒體的文章下載也是支持的:

import newspaper
sina_paper = newspaper.build('http://www.sina.com.cn/', language='zh')

for category in sina_paper.category_urls():
    print(category)
# http://health.sina.com.cn
# http://eladies.sina.com.cn
# http://english.sina.com
# ...

article = sina_paper.articles[0]
article.download()
article.parse()

print(article.text)
# 新浪武漢汽車綜合 隨著汽車市場(chǎng)的日趨成熟,
# 傳統(tǒng)的"集全家之力抱得愛車歸"的全額購(gòu)車模式已然過時(shí),
# 另一種輕松的新興 車模式――金融購(gòu)車正逐步成為時(shí)下消費(fèi)者購(gòu)
# 買愛車最為時(shí)尚的消費(fèi)理念,他們認(rèn)為,這種新穎的購(gòu)車
# 模式既能在短期內(nèi)
# ...

print(article.title)
# 兩年雙免0手續(xù)0利率 科魯茲掀背金融輕松購(gòu)_武漢車市_武漢汽
# 車網(wǎng)_新浪汽車_新浪網(wǎng)

從上面的例子你可以看到,你可以非常容易地提取中文文章,僅需要在Article的language參數(shù)中指定 'zh' :

"""
Python 實(shí)用寶典
《Newspaper — 一個(gè)能下載38種語言新聞文章的 Python 模塊》
"""

from newspaper import Article
url = 'http://www.bbc.co.uk/zhongwen/simp/chinese_news/2012/12/121210_hongkong_politics.shtml'
a = Article(url, language='zh') # Chinese
a.download()
a.parse()
print(a.text[:150])

# 香港行政長(zhǎng)官梁振英在各方壓力下就其大宅的違章建
# 筑(僭建)問題到立法會(huì)接受質(zhì)詢,并向香港民眾道歉。
# 梁振英在星期二(12月10日)的答問大會(huì)開始之際
# 在其演說中道歉,但強(qiáng)調(diào)他在違章建筑問題上沒有隱瞞的
# 意圖和動(dòng)機(jī)。一些親北京陣營(yíng)議員歡迎梁振英道歉,
# 且認(rèn)為應(yīng)能獲得香港民眾接受,但這些議員也質(zhì)問梁振英有

print(a.title)
# 港特首梁振英就住宅違建事件道歉

這個(gè)工具所支持的所有語言如下:

上滑查看更多語言

code            full namear              Arabicbe              Belarusianbg              Bulgarianda              Danishde              Germanel              Greeken              Englishes              Spanishet              Estonianfa              Persianfi              Finnishfr              Frenchhe              Hebrewhi              Hindihr              Croatianhu              Hungarianid              Indonesianit              Italianja              Japaneseko              Koreanlt              Lithuanianmk              Macedoniannb              Norwegian (Bokm?l)nl              Dutchno              Norwegianpl              Polishpt              Portuguesero              Romanianru              Russiansl              Sloveniansr              Serbiansv              Swedishsw              Swahilith              Thaitr              Turkishuk              Ukrainianvi              Vietnamesezh              Chinese

你可以按需選擇自己所需要的語言。

3.高級(jí)玩法

前面我們說過,Newspaper 是一個(gè)可以并發(fā)下載文章的框架,它是這么玩的:

"""
Python 實(shí)用寶典
《Newspaper — 一個(gè)能下載38種語言新聞文章的 Python 模塊》
"""

import newspaper
from newspaper import news_pool

slate_paper = newspaper.build('http://slate.com')
tc_paper = newspaper.build('http://techcrunch.com')
espn_paper = newspaper.build('http://espn.com')

papers = [slate_paper, tc_paper, espn_paper]
news_pool.set(papers, threads_per_source=2) # (3*2) = 總計(jì) 6 線程
news_pool.join()

# 到這一步,你可以假定三個(gè)新聞源的文章都下載完成了
print(slate_paper.articles[10].html)
# u'< html > ...'

可以看到,作者通過 build 三個(gè)新聞源,拿到一個(gè)總的新聞源池進(jìn)行并發(fā)請(qǐng)求。

其中,.set 函數(shù)起到了調(diào)度作用,它能通過指定 threads_per_source 的值設(shè)定每個(gè)新聞源的線程。最后再 join 起來開始并發(fā)請(qǐng)求新聞源并開始下載新聞。

此外,Newspaper 還有一些參數(shù)可供你配置,比如:

上滑查看更多參數(shù)

keep_article_html,默認(rèn)為False,“如果要保留正文文本的html,則設(shè)置為True”http_success_only,默認(rèn)為True,“設(shè)置為False也可以捕獲非2XX響應(yīng)”MIN_WORD_COUNT,默認(rèn)為300,“文章中的單詞數(shù)量”MIN_SENT_COUNT,默認(rèn)為7,“句子數(shù)”MAX_TITLE,默認(rèn)值為200,“文章標(biāo)題中的字符數(shù)”MAX_TEXT,默認(rèn)值為100000,“文章文字中的字符數(shù)”MAX_KEYWORDS,默認(rèn)值為35,“文章中的關(guān)鍵詞數(shù)”MAX_AUTHORS,默認(rèn)值為10,“文章中的作者姓名數(shù)量”MAX_SUMMARY,默認(rèn)值為5000,“摘要的字符數(shù)”MAX_SUMMARY_SENT,默認(rèn)為5,“摘要中的句子數(shù)”memoize_articles,默認(rèn)為True,“運(yùn)行后緩存并保存運(yùn)行后的文章”fetch_images,默認(rèn)為True,“如果不需要獲取圖片,請(qǐng)將其設(shè)置為false”request_timeout,默認(rèn)為7,請(qǐng)求7秒后未響應(yīng)完成則超時(shí)number_threads,默認(rèn)值為10,多線程數(shù)量

如果你需要使用以上參數(shù),可以設(shè)一個(gè)Config對(duì)象,傳入指定的 Article 對(duì)象或build 方法中,如:

import newspaper
from newspaper import Config, Article, Source

config = Config()
config.memoize_articles = False

cbs_paper = newspaper.build('http://cbs.com', config)

非常簡(jiǎn)單易懂,而且設(shè)置起來的維護(hù)成本不算很高。

在做一些輿情分析或者NLP算法訓(xùn)練/測(cè)試的時(shí)候,這個(gè)模塊簡(jiǎn)直就是你的福音。你可以很方便地從網(wǎng)站上提取任意語言的文本數(shù)據(jù),拿來測(cè)試或者訓(xùn)練都可以。

對(duì)于那些想要搞輿情分析,尋找市場(chǎng)熱點(diǎn)的同學(xué)而言,這個(gè)模塊也是非常方便,你能搭配郵件發(fā)布工具,并使用Newspaper的關(guān)鍵詞提取功能,迅速制作一個(gè)關(guān)鍵詞熱點(diǎn)實(shí)時(shí)告警的工具。

總而言之,這是一個(gè)非常值得了解并學(xué)習(xí)使用的第三方模塊,強(qiáng)烈推薦。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 多線程
    +關(guān)注

    關(guān)注

    0

    文章

    279

    瀏覽量

    20451
  • 編輯器
    +關(guān)注

    關(guān)注

    1

    文章

    822

    瀏覽量

    32055
  • python
    +關(guān)注

    關(guān)注

    56

    文章

    4827

    瀏覽量

    86812
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    openeuler安裝教程三:openeuler安裝步驟指導(dǎo)

    本章以光盤安裝為例介紹安裝openEuler,其他安裝方式除在啟動(dòng)安裝時(shí)的引導(dǎo)方式不同外,待啟動(dòng)安裝后則
    的頭像 發(fā)表于 12-06 16:53 ?1.7w次閱讀
    openeuler<b class='flag-5'>安裝</b>教程三:openeuler<b class='flag-5'>安裝</b>步驟指導(dǎo)

    pads2005安裝方法 安裝說明 安裝步驟

    pads2005安裝方法 安裝說明 安裝步驟
    發(fā)表于 11-28 09:23 ?0次下載
    pads2005<b class='flag-5'>安裝</b>方法 <b class='flag-5'>安裝</b>說明 <b class='flag-5'>安裝</b>步驟

    pads2007的安裝方法 怎么安裝 無法安裝

    pads2007的安裝方法 怎么安裝  無法安裝:圖解說明,非常詳細(xì)
    發(fā)表于 12-03 13:01 ?0次下載
    pads2007的<b class='flag-5'>安裝</b>方法 怎么<b class='flag-5'>安裝</b> 無法<b class='flag-5'>安裝</b>

    軸承的安裝

    軸承的安裝 軸承的安裝: 軸承的安裝是否正確,影響著精度、壽命、性能。因此,設(shè)計(jì)及組裝部門對(duì)于軸承的安裝要充分研究。希望要按照作業(yè)標(biāo)準(zhǔn)進(jìn)行安裝
    發(fā)表于 05-14 08:10 ?1031次閱讀
    軸承的<b class='flag-5'>安裝</b>

    led吸頂燈如何安裝安裝教程)_led吸頂燈安裝圖解

    led燈飾越來越受大眾喜歡,雖然led燈飾好看但是安裝卻是個(gè)大難題。那么它應(yīng)該要如何安裝呢?這篇文章主要就是介紹led吸頂燈的安裝教程_led吸頂燈安裝圖解。
    發(fā)表于 12-22 14:00 ?32.4w次閱讀

    RealViewMDK的安裝概述和驅(qū)動(dòng)安裝

    本文的主要內(nèi)容介紹的是RealViewMDK的安裝概述和驅(qū)動(dòng)安裝
    發(fā)表于 05-09 09:15 ?16次下載

    QuartusII安裝教程之QuartusII安裝說明和硬件安裝資料免費(fèi)下載

    本文檔的主要內(nèi)容詳細(xì)介紹的是QuartusII安裝教程之QuartusII安裝說明和硬件安裝資料免費(fèi)下載。
    發(fā)表于 03-27 17:12 ?11次下載
    QuartusII<b class='flag-5'>安裝</b>教程之QuartusII<b class='flag-5'>安裝</b>說明和硬件<b class='flag-5'>安裝</b>資料免費(fèi)下載

    Kali Linux安裝Java 安裝顯卡驅(qū)動(dòng) 安裝網(wǎng)卡補(bǔ)丁 并發(fā)線程限制 電源優(yōu)化

    Kali Linux安裝Java 安裝顯卡驅(qū)動(dòng) 安裝網(wǎng)卡補(bǔ)丁 并發(fā)線程限制 電源優(yōu)化安裝Java安裝Java
    發(fā)表于 01-06 16:18 ?0次下載
    Kali Linux<b class='flag-5'>安裝</b>Java <b class='flag-5'>安裝</b>顯卡驅(qū)動(dòng) <b class='flag-5'>安裝</b>網(wǎng)卡補(bǔ)丁 并發(fā)線程限制 電源優(yōu)化

    OpenSSL安裝使用:OpenSSL安裝說明

    安裝ActivePerl軟件根據(jù)提示一步一步進(jìn)行安裝即可,安裝過程軟件會(huì)自動(dòng)設(shè)置環(huán)境變量。要確認(rèn)是否安裝成功,我們可以利用cmd命令行的形式輸入指令進(jìn)入到
    的頭像 發(fā)表于 11-11 14:11 ?2078次閱讀

    openeuler安裝教程二:openeuler安裝方式介紹

    (HostOS為openEuler,虛擬化組件為發(fā)布包中的qemu、KVM)創(chuàng)建的虛擬化平臺(tái)和華為公有云的x86虛擬化平臺(tái)。 安裝方式當(dāng)前僅支持光盤、USB盤安裝、網(wǎng)絡(luò)安裝、qcow2鏡像安裝
    的頭像 發(fā)表于 12-06 16:48 ?5003次閱讀
    openeuler<b class='flag-5'>安裝</b>教程二:openeuler<b class='flag-5'>安裝</b>方式介紹

    openeuler安裝教程四:openeuler安裝方法使用kickstart自動(dòng)化安裝

    使用kickstart自動(dòng)化安裝 使用kickstart自動(dòng)化安裝 總體介紹 概述 優(yōu)缺點(diǎn)對(duì)比 背景知識(shí) 半自動(dòng)化安裝指導(dǎo) 環(huán)境要求 操作步驟 全自動(dòng)化安裝指導(dǎo) 環(huán)境要求 操作步驟 總
    的頭像 發(fā)表于 12-06 17:22 ?6845次閱讀
    openeuler<b class='flag-5'>安裝</b>教程四:openeuler<b class='flag-5'>安裝</b>方法使用kickstart自動(dòng)化<b class='flag-5'>安裝</b>

    安裝Linux的系統(tǒng)安裝工具

    安裝_Linux的系統(tǒng)安裝工具,可以安裝各類Linux操作系統(tǒng)。通過iso鏡像文件的格式安裝。也可以安裝在U盤上,本人親測(cè)通過。 ?
    發(fā)表于 09-11 10:21 ?0次下載

    Newspaper開源模塊的安裝和使用教程

    Newspaper 是一個(gè)很棒的python庫,用于提取和整理文章。 下面是這個(gè)開源模塊的安裝和使用教程。 1.準(zhǔn)備 開始之前,你要確保Python和pip已經(jīng)成功安裝在電腦上,如果沒有,可以訪問
    的頭像 發(fā)表于 10-16 11:22 ?1012次閱讀

    Newspaper:用于提取和整理文章的python庫

    Newspaper 是一個(gè)很棒的python庫,用于提取和整理文章。 它有以下的優(yōu)點(diǎn): 多線程文章下載框架 識(shí)別新聞網(wǎng)址 從html提取文本 從html提取頂部圖像 從html提取所有圖像 從文本
    的頭像 發(fā)表于 10-30 14:24 ?1140次閱讀

    Newspaper:能下載38種語言新聞文章的 Python 模塊

    Newspaper 是一個(gè)很棒的python庫,用于提取和整理文章。 它有以下的優(yōu)點(diǎn): 多線程文章下載框架 識(shí)別新聞網(wǎng)址 從html提取文本 從html提取頂部圖像 從html提取所有圖像 從文本
    的頭像 發(fā)表于 10-31 11:09 ?707次閱讀