一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

讓AI和網(wǎng)絡(luò)機(jī)器人進(jìn)行網(wǎng)頁抓取、收集數(shù)據(jù)等工作,有用嗎?

如意 ? 來源:讀芯術(shù)微信公眾號 ? 作者:讀芯術(shù)微信公眾號 ? 2020-10-23 16:13 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

“互聯(lián)網(wǎng)上有很多數(shù)據(jù)”,這么說太保守了。事實(shí)上,2020年,“數(shù)字宇宙”預(yù)計(jì)將擁有40萬億字節(jié)或40澤字節(jié)(zettabytes)的信息,一個(gè)澤字節(jié)擁有的數(shù)據(jù)足以填滿大約五分之一曼哈頓大小的數(shù)據(jù)中心。

可供分析的信息如此之多,將收集數(shù)據(jù)的任務(wù)留給AI就顯得合情合理了。網(wǎng)絡(luò)機(jī)器人能以令人難以置信的速度抓取網(wǎng)頁,提取所需的相關(guān)信息。不過,盡管許多數(shù)據(jù)科學(xué)家和營銷人員以一種完全合乎倫理的方式獲取和使用這些信息。但很遺憾,隨著網(wǎng)絡(luò)人工智能日益普及,網(wǎng)絡(luò)機(jī)器人還是逐漸被污名化了。

對人工智能的大部分負(fù)面印象是由好萊塢電影和科幻小說間接造成的,畢竟在這些作品中,即使最美好愜意的時(shí)候也要提防著AI。此外,某些web用戶以不道德的方式使用網(wǎng)絡(luò)機(jī)器人,導(dǎo)致即便是專業(yè)、誠心使用數(shù)據(jù)的人也備受打擊。

對于許多專業(yè)人士來說,網(wǎng)頁抓取仍然是必不可少的工具。那么,對于與網(wǎng)絡(luò)機(jī)器人的污名,我們能做些什么呢?

首先,網(wǎng)頁抓取是什么

你可以簡單地把網(wǎng)頁抓取行為理解為數(shù)據(jù)提取。盡管數(shù)據(jù)科學(xué)家和其他專業(yè)人士使用抓取來分析非常復(fù)雜的數(shù)字信息棧,但從網(wǎng)站復(fù)制粘貼文本的行為本身就可以被認(rèn)作一種簡單的抓取形式。

然而,就算可以在網(wǎng)站上盡情訪問,由于可用信息太多,可能也要花費(fèi)非常長的時(shí)間從來源處收集數(shù)據(jù)。大多數(shù)情況下,網(wǎng)頁抓取都是留給人工智能來完成的,人工智能會(huì)將檢索到的數(shù)據(jù)進(jìn)行透徹分析以達(dá)到各種目的。雖然這對網(wǎng)絡(luò)爬蟲來說極為便利,但網(wǎng)站所有者和旁觀者都非常擔(dān)心人工智能在網(wǎng)絡(luò)上的“濫用”

使用網(wǎng)絡(luò)機(jī)器人進(jìn)行網(wǎng)頁抓取會(huì)更好嗎

有這么多的信息要分析,求助于人工智能來收集數(shù)據(jù)理所當(dāng)然。實(shí)際上,谷歌本身就是為感興趣的各方提供網(wǎng)頁抓取工具最可信的來源之一。例如,你可以使用其數(shù)據(jù)集搜索引擎快速訪問認(rèn)為可以免費(fèi)使用的數(shù)據(jù),甚至能定制搜索,以了解這些信息是否可用于商業(yè)用途。完成這些任務(wù)只需要幾秒鐘。

如果沒有谷歌AI如此高效檢查每個(gè)網(wǎng)站的相關(guān)數(shù)據(jù),恐怕無法實(shí)現(xiàn)這樣的速度。這是一個(gè)利用人工智能以純道德的方式為研究或商業(yè)收集有用信息的完美例子,其速度之快也證明了“網(wǎng)絡(luò)機(jī)器人”如何讓執(zhí)行網(wǎng)頁抓取任務(wù)變得如此容易。

人工智能流量變得如此普遍,如今已經(jīng)占到互聯(lián)網(wǎng)流量的一半以上。即便如此,我們還是容易忽視其造成的影響。

有人認(rèn)為,人工智能在互聯(lián)網(wǎng)流量中占主導(dǎo)地位令人擔(dān)憂。讓這一問題變得更糟的原因是,有一小部分人工智能流量是由“糟糕的機(jī)器人”組成的。即使抓取的意圖很好,方法也合乎道德,人工智能的污名還是不可避免。

使用網(wǎng)絡(luò)機(jī)器人來處理大量數(shù)據(jù)是合理的步驟。除了人工智能,在網(wǎng)頁數(shù)據(jù)抓取時(shí)考慮其他必要工具也很重要。

代理如何提供幫助

使用代理進(jìn)行網(wǎng)絡(luò)抓取有很多優(yōu)點(diǎn),匿名性正是其中之一。比方說,如果你想對一個(gè)競爭品牌進(jìn)行調(diào)研,并利用這些信息來確定改善自己公司發(fā)展的最佳方案,你可能不想讓別人知道自己訪問了他們的網(wǎng)站。在這種情況下,使用代理既能訪問、檢查數(shù)據(jù),又不會(huì)泄露身份,兩全其美。

做進(jìn)一步探討之前,先來快速回顧一下代理服務(wù)器:

代理服務(wù)器的設(shè)計(jì)目的是充當(dāng)用戶和web服務(wù)器之間的中間人。

功能多樣:個(gè)人和公司都能使用代理服務(wù)器來滿足特定需求。

代理的一個(gè)常見用途與網(wǎng)頁抓取有關(guān):使用代理服務(wù)器可以繞過網(wǎng)站管理員設(shè)置的限制,從而大量收集數(shù)據(jù)。

那么問題來了,為什么要設(shè)置限制呢?這些數(shù)據(jù)不是可以在網(wǎng)上免費(fèi)獲得嗎?對人類用戶來說,是的。這里有一個(gè)典型的例子。價(jià)格聚合商的整個(gè)商業(yè)模式是建立在準(zhǔn)確信息之上的,它為“我在哪里能買到價(jià)格最低的X產(chǎn)品?”這個(gè)問題提供確切答案。

盡管這對客戶來說是一個(gè)省錢的好機(jī)會(huì),但供應(yīng)商對其他公司窺探他們的數(shù)據(jù)并不太感興趣,原因是聚合器的網(wǎng)絡(luò)爬蟲軟件(通常稱為“網(wǎng)絡(luò)機(jī)器人”或“網(wǎng)頁蜘蛛”)給網(wǎng)站帶來了額外的負(fù)載。因此,如果網(wǎng)站管理員懷疑給定的網(wǎng)絡(luò)活動(dòng)不是由真正的用戶進(jìn)行的,就會(huì)限制用戶訪問網(wǎng)站。

代理的另一個(gè)實(shí)際用途是逃避審查禁令。住宅代理(Residentialproxies),顧名思義,會(huì)顯示你是來自X國的真正用戶,你可自定義來自哪個(gè)國家。對住宅代理的需求很簡單:(可疑的)網(wǎng)絡(luò)機(jī)器人活動(dòng)通常來自某些國家,所以即使是來自這些國家的真正用戶也經(jīng)常遇到地域限制。

此外,當(dāng)你試圖從數(shù)據(jù)源收集數(shù)據(jù)、卻因各種原因無法訪問時(shí),使用代理尤其有用。在網(wǎng)絡(luò)抓取時(shí)有很多使用代理的方法,但為了在數(shù)字社區(qū)中建立信任,我們建議你堅(jiān)持使用那些可以建立品牌信任和權(quán)威的方法。

利用人類可見性和可信賴的品牌來對抗人工智能的污名

目前,人工智能發(fā)展速度確實(shí)超過了上網(wǎng)人數(shù)增長速度。不過,互聯(lián)網(wǎng)在未來幾年將會(huì)如何發(fā)展還不得而知,因此沒有理由立即斷定這一趨勢不可逆轉(zhuǎn),也不能斷定它代表著一種固有的消極趨勢。

要想扭轉(zhuǎn)網(wǎng)絡(luò)上有關(guān)人工智能流量的負(fù)面言論,最佳辦法就是讓互聯(lián)網(wǎng)上的人工智能使用恢復(fù)人性化。還需注意,要以建立信任的方式使用人工智能,無需考慮太多。

堅(jiān)持使用由高認(rèn)知度、可信賴的品牌提供的可信賴的產(chǎn)品和服務(wù)。

堅(jiān)持合乎道德的網(wǎng)頁抓取操作。不要濫用信任,忽略網(wǎng)站上robots.txt文件,或在短時(shí)間內(nèi)大量使用機(jī)器人程序。

以專業(yè)、負(fù)責(zé)的方式使用數(shù)據(jù)。核實(shí)你是否擁有將抓取獲得的數(shù)據(jù)用于預(yù)期目的的權(quán)限。

多多普及人工智能。多去和其他人說說如何以及為什么使用網(wǎng)絡(luò)抓取,讓人們對網(wǎng)絡(luò)抓取有更深的認(rèn)識。人們對使用人工智能獲取、研究大量數(shù)據(jù)的好處了解得越多,對網(wǎng)頁抓取和網(wǎng)絡(luò)機(jī)器人持負(fù)面看法的可能性就越小。

通過純粹的人工操作來手動(dòng)訪問網(wǎng)站數(shù)據(jù)或許讓人很放心,但由于信息太多,這幾乎不可能。可用的數(shù)據(jù)量幾乎無窮無盡,使用人工智能是我們?yōu)g覽網(wǎng)站和盡可能高效分析數(shù)據(jù)的最佳手段。不過,它或許還需要再加點(diǎn)兒“人情味”。
責(zé)編AJX

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 機(jī)器人
    +關(guān)注

    關(guān)注

    213

    文章

    29730

    瀏覽量

    212839
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    35109

    瀏覽量

    279629
  • 網(wǎng)頁抓取
    +關(guān)注

    關(guān)注

    0

    文章

    3

    瀏覽量

    1964
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    明遠(yuǎn)智睿SSD2351開發(fā)板:語音機(jī)器人領(lǐng)域的變革力量

    通過網(wǎng)絡(luò)連接云端服務(wù)器進(jìn)行快速檢索和分析,然后利用語音合成技術(shù)將答案以自然流暢的語音反饋給用戶。同時(shí),借助開發(fā)板的網(wǎng)絡(luò)連接功能,語音機(jī)器人還可以與后臺管理系統(tǒng)
    發(fā)表于 05-28 11:36

    詳細(xì)介紹機(jī)場智能指路機(jī)器人工作原理

    負(fù)責(zé)接收旅客的語音指令,以便機(jī)器人理解旅客的需求。 環(huán)境感知與信息融合 :這些傳感器收集到的信息會(huì)進(jìn)行融合處理。例如,激光雷達(dá)提供的距離信息和攝像頭捕捉的視覺信息相結(jié)合,能讓機(jī)器人更準(zhǔn)
    發(fā)表于 05-10 18:26

    【「# ROS 2智能機(jī)器人開發(fā)實(shí)踐」閱讀體驗(yàn)】機(jī)器人入門的引路書

    ROS的全稱:Robot Operating System 機(jī)器人操作系統(tǒng) ROS的 目的 :ROS支持通用庫,是通信總線,協(xié)調(diào)多個(gè)傳感器 為了解決機(jī)器人里各廠商模塊不通用的問題,機(jī)器人
    發(fā)表于 04-30 01:05

    【「# ROS 2智能機(jī)器人開發(fā)實(shí)踐」閱讀體驗(yàn)】+內(nèi)容初識

    、軟件開發(fā)、系統(tǒng)集成環(huán)節(jié),讀者能夠全面了解一個(gè)完整的機(jī)器人應(yīng)用開發(fā)過程。 實(shí)踐項(xiàng)目:除了案例分析,書中還設(shè)計(jì)了一些實(shí)踐項(xiàng)目,供讀者進(jìn)行動(dòng)手實(shí)踐。這些實(shí)踐項(xiàng)目涵蓋了從簡單的傳感器
    發(fā)表于 04-27 11:24

    大象機(jī)器人攜手進(jìn)迭時(shí)空推出 RISC-V 全棧開源六軸機(jī)械臂產(chǎn)品

    識別聯(lián)調(diào)。 進(jìn)迭時(shí)空致力于為智能機(jī)器人提供完整全棧優(yōu)化的RISC-V AI軟硬件解決方案,第一代RISC-V AI CPU芯片K1已完成AI視覺感知、
    發(fā)表于 04-25 17:59

    如何用Brower Use WebUI實(shí)現(xiàn)網(wǎng)頁數(shù)據(jù)智能抓取與分析?

    數(shù)據(jù)時(shí),不會(huì)被網(wǎng)站反爬機(jī)制識別和封禁,能穩(wěn)定有效地獲取數(shù)據(jù)和執(zhí)行任務(wù)。除了數(shù)據(jù)采集外,Browser-use還能抓取網(wǎng)頁全部交互元素,自動(dòng)完
    的頭像 發(fā)表于 04-17 17:48 ?424次閱讀
    如何用Brower Use WebUI實(shí)現(xiàn)<b class='flag-5'>網(wǎng)頁數(shù)據(jù)</b>智能<b class='flag-5'>抓取</b>與分析?

    富唯智能最小復(fù)合機(jī)器人的強(qiáng)大抓取實(shí)力?

    在工業(yè)自動(dòng)化領(lǐng)域,復(fù)合機(jī)器人的身影愈發(fā)常見。但你是否好奇,最小的復(fù)合機(jī)器人抓取多少多重?富唯智能以創(chuàng)新技術(shù),給出了令人驚嘆的答案,徹底顛覆我們對小身形機(jī)器人的認(rèn)知。?
    的頭像 發(fā)表于 04-16 16:31 ?285次閱讀
    富唯智能最小復(fù)合<b class='flag-5'>機(jī)器人</b>的強(qiáng)大<b class='flag-5'>抓取</b>實(shí)力?

    復(fù)合機(jī)器人抓取精度的影響因素及提升策略

    復(fù)合機(jī)器人結(jié)合了移動(dòng)機(jī)器人(如AGV)和機(jī)械臂的功能,廣泛應(yīng)用于物流、制造領(lǐng)域。抓取精度是其核心性能指標(biāo)之一,直接影響作業(yè)效率和產(chǎn)品質(zhì)量。本文將探討復(fù)合
    的頭像 發(fā)表于 04-12 11:15 ?337次閱讀

    【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】2.具身智能機(jī)器人的基礎(chǔ)模塊

    ,一次生成深度信息。 自主機(jī)器人定位任務(wù)的本質(zhì)是對機(jī)器人自身狀態(tài)的估計(jì)問題,包括位置,朝向,速度問題。 路徑規(guī)劃旨在找到從起點(diǎn)到目標(biāo)區(qū)域的路徑,確保路徑的可行性和最優(yōu)性。路徑規(guī)劃方法包括變分方法,圖搜
    發(fā)表于 01-04 19:22

    《具身智能機(jī)器人系統(tǒng)》第10-13章閱讀心得之具身智能機(jī)器人計(jì)算挑戰(zhàn)

    取特征點(diǎn),涉及大量像素級比較運(yùn)算;優(yōu)化機(jī)器人位姿,需要迭代求解大規(guī)模矩陣方程。書中提出了模塊化的硬件加速方案,闡述了如何以因子圖為通用模版,以求解非線性優(yōu)化問題為橋梁,面向多種機(jī)器人應(yīng)用進(jìn)行加速。 第11
    發(fā)表于 01-04 01:15

    【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】2.具身智能機(jī)器人大模型

    需要專業(yè)程序員進(jìn)行繁瑣的編程工作,這種方式不僅效率低下,還限制了機(jī)器人的應(yīng)用場景。例如,在我們大學(xué)工程實(shí)訓(xùn)課程中使用的數(shù)控機(jī)床,需要人為設(shè)定起點(diǎn)、終點(diǎn)、移動(dòng)方向和移動(dòng)距離參數(shù),自動(dòng)化
    發(fā)表于 12-29 23:04

    巡檢機(jī)器人AI智慧算法有哪些?

    要把機(jī)器人比做人類,那么AI智慧算法就好比是它的感官和聰慧的大腦。通過捕捉每一個(gè)細(xì)微的變化、迅速對收集到的信息進(jìn)行分析處理,做出正確的判斷和決策。就像一個(gè)經(jīng)驗(yàn)豐富的專業(yè)人員,有條不紊地
    的頭像 發(fā)表于 12-29 10:51 ?550次閱讀

    【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】1.全書概覽與第一章學(xué)習(xí)

    ,特別是在模型訓(xùn)練的時(shí)候,高質(zhì)量、大規(guī)模且多樣化的模型才能夠訓(xùn)練出來一個(gè)好的網(wǎng)絡(luò)。針對具身智能機(jī)器人也是如此,如自主導(dǎo)航機(jī)器人需要大量地環(huán)境數(shù)據(jù)進(jìn)
    發(fā)表于 12-27 14:50

    【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】+數(shù)據(jù)在具身人工智能中的價(jià)值

    的第二個(gè)挑戰(zhàn)是 “數(shù)據(jù)孤島”。獲取如此全面的數(shù)據(jù)充滿了挑戰(zhàn),包括高成本、耗時(shí)要求和潛在的安全風(fēng)險(xiǎn)。大多數(shù) EAI 機(jī)器人組織僅限于在特定的受控環(huán)境中收集數(shù)據(jù)。實(shí)體之間缺乏
    發(fā)表于 12-24 00:33

    《具身智能機(jī)器人系統(tǒng)》第1-6章閱讀心得之具身智能機(jī)器人系統(tǒng)背景知識與基礎(chǔ)模塊

    需要在實(shí)時(shí)性、精度和可靠性維度上進(jìn)行優(yōu)化。我認(rèn)為這種系統(tǒng)化的工程思維對構(gòu)建復(fù)雜人工智能系統(tǒng)很有啟發(fā)。作為一名數(shù)據(jù)挖掘工作者,這本書我看到
    發(fā)表于 12-19 22:26