資料介紹
軟件簡介
這是?www.shousibaocai.org?的網(wǎng)站源代碼。 開源的目的是為了促進(jìn)技術(shù)交流和相互學(xué)習(xí),把DHT與搜索引擎技術(shù)應(yīng)用到更廣泛的領(lǐng)域去。
本站于2015年5月使用django改寫。 本站于2019年使用nodejs改寫。 與爬蟲相關(guān)的代碼都在目錄spider目錄下。
作為最早在國內(nèi)研究和實(shí)踐DHT爬蟲的人,我的靈感是來自芬蘭Helsinki大學(xué)的這篇論文: Real-World Sybil Attacks in BitTorrent Mainline DHT 英文好的同學(xué)應(yīng)該很容易讀懂,跟我寫的不到300行的爬蟲代碼大致原理一樣。初次接觸DHT網(wǎng)絡(luò)的可以結(jié)合我之前的文章閱讀,或者拜讀Kevin Lynx的博客。所以具體原理在這里就不再闡述了。
手撕包菜一開始只是為了純粹的技術(shù)研究,沒有去想這個搜索引擎能給網(wǎng)民帶來什么樣的福利。當(dāng)時采集了大量的數(shù)據(jù),發(fā)現(xiàn)有一半以上的資源為限級內(nèi)容,于是試圖去對資源進(jìn)行分類并且做了很多這方面的工作。譬如,基本上能通過一套規(guī)則能篩選出限級內(nèi)容,對資源進(jìn)行分類,如果是視頻還能匹配出是哪一部影片。可惜,這些工作我主觀上認(rèn)為對生活應(yīng)用并沒有太大價值,于是就放棄了深入的研究?;蛟S是因?yàn)榫W(wǎng)民使用此類搜索引擎大部分都是具有明顯的目的性。
手撕包菜經(jīng)歷了多次點(diǎn)技術(shù)變更
開源版本使用了django網(wǎng)站框架重寫,之前是Flask,再早期是tornado。電影FM也是使用tornado,后來發(fā)現(xiàn)tornado并不適用于任何場景。以內(nèi)容為王的網(wǎng)站還是django比較擅長,只是入門時間比其他框架都較長。早期數(shù)據(jù)庫采用了MongoDB,因?yàn)榕浜螾ython讀寫數(shù)據(jù)很方便,也不用關(guān)注數(shù)據(jù)結(jié)構(gòu),搜索功能采用自帶的關(guān)鍵詞搜索,不過后來隨著資源數(shù)量增加,性能也明顯跟不上。今年換了WiredTiger引擎,自帶的fulltext search還是不給力。另外Amazon的cloudsearch是個坑,土豪可以考慮,性能真的很不錯,就是比較貴。最后還是搭建一個SphinxSearch吧,數(shù)據(jù)庫也換成MySQL(MyISAM引擎),配合起來也很方便。Sphinx創(chuàng)建全文索引的速度很給力,官方的自評也很高,我自己測試1000w的資源(大概3GB),1分鐘左右就索引完畢。不信,大家可以自測一下。
- FPGA加速視覺搜索引擎解決方案
- 基于蛻變測試的用戶搜索引擎性能分析 9次下載
- python爬蟲入門教程之python爬蟲視頻教程分布式爬蟲打造搜索引擎 29次下載
- 分布式搜索引擎elasticsearch使用手冊 0次下載
- 一個大規(guī)模超文本網(wǎng)絡(luò)搜索引擎剖析(英文版) 0次下載
- 基于JAVA技術(shù)的搜索引擎的研究與實(shí)現(xiàn)
- 主題搜索引擎的研究
- 教育網(wǎng)BBS搜索引擎設(shè)計與實(shí)現(xiàn)
- 分布式多搜索引擎系統(tǒng)的研究與實(shí)現(xiàn)
- 基于壓縮后綴數(shù)組技術(shù)的搜索引擎
- 原創(chuàng)優(yōu)先的搜索引擎排序算法
- 基于偽爬行器的主題式元搜索引擎研究與設(shè)計
- 搜索引擎查詢?nèi)罩镜木垲?/a>
- 基于網(wǎng)格技術(shù)的并行搜索引擎
- 基于網(wǎng)絡(luò)搜索引擎的網(wǎng)絡(luò)話題分析框架
- javascript:void(0) 是否影響SEO優(yōu)化 174次閱讀
- 谷歌搜索引擎優(yōu)化的各個方面和步驟 929次閱讀
- 百度搜索exgraph圖執(zhí)行引擎設(shè)計與實(shí)踐分享 583次閱讀
- 使用Rust語言重寫的代碼搜索引擎黑鳥系統(tǒng)Blackbird正式啟用 889次閱讀
- 一個基于GPT-4的代碼搜索引擎,開源了! 1425次閱讀
- Elasticsearch 8作為開源軟件正式發(fā)布 2459次閱讀
- 實(shí)測沒有廣告的百度開發(fā)者搜索 2833次閱讀
- 深入了解電子設(shè)計搜索引擎 2303次閱讀
- 大數(shù)據(jù)是如何優(yōu)化企業(yè)搜索引擎 2262次閱讀
- Elasticsearch概述 怎么安裝ES 4335次閱讀
- TensorFlow和PyTorch框架的幾個重要發(fā)展 5486次閱讀
- 如何用Python實(shí)現(xiàn)一個大數(shù)據(jù)搜索引擎 3061次閱讀
- 如何在Python中進(jìn)行Elasticsearch操作? 7671次閱讀
- 基于深度學(xué)習(xí)技術(shù),從頭開始搭建圖像語義搜索引擎 4912次閱讀
- 垂直搜索引擎是什么_垂直搜索引擎有哪些 7943次閱讀
下載排行
本周
- 1人形機(jī)器人電機(jī)驅(qū)動和傳感報告
- 4.27 MB | 9次下載 | 免費(fèi)
- 2Altium Designer元件庫
- 17.11 MB | 6次下載 | 免費(fèi)
- 324V2A開關(guān)電源PCB資料分享
- 0.23 MB | 4次下載 | 1 積分
- 4GD100PIX120C6SNA規(guī)格書
- 0.98 MB | 3次下載 | 免費(fèi)
- 5Multisim模擬電路仿真教程
- 1.93 MB | 1次下載 | 3 積分
- 6BK7258英文規(guī)格書
- 1.67 MB | 1次下載 | 免費(fèi)
- 7RA4L1硬件手冊
- 21.89 MB | 1次下載 | 免費(fèi)
- 8RA4L1_SENSOR-V1原理圖
- 754.36 KB | 1次下載 | 免費(fèi)
本月
- 1晶體三極管的電流放大作用詳細(xì)說明
- 0.77 MB | 32次下載 | 2 積分
- 2雙極型三極管放大電路的三種基本組態(tài)的學(xué)習(xí)課件免費(fèi)下載
- 4.03 MB | 25次下載 | 1 積分
- 3AIWA HS-J303 MKⅡ維修手冊
- 22.47 MB | 24次下載 | 10 積分
- 4九陽豆?jié){機(jī)高清原理圖
- 2.47 MB | 23次下載 | 1 積分
- 5多級放大電路的學(xué)習(xí)課件免費(fèi)下載
- 1.81 MB | 21次下載 | 2 積分
- 6AIWA HS-J202/HS-J202M/HS-J800維修手冊
- 13.60 MB | 16次下載 | 10 積分
- 7東芝彩色電視機(jī)29SF6C維修說明書
- 4.86 MB | 9次下載 | 1 積分
- 8人形機(jī)器人電機(jī)驅(qū)動和傳感報告
- 4.27 MB | 9次下載 | 免費(fèi)
總榜
- 1matlab軟件下載入口
- 未知 | 935127次下載 | 10 積分
- 2開源硬件-PMP21529.1-4 開關(guān)降壓/升壓雙向直流/直流轉(zhuǎn)換器 PCB layout 設(shè)計
- 1.48MB | 420063次下載 | 10 積分
- 3Altium DXP2002下載入口
- 未知 | 233089次下載 | 10 積分
- 4電路仿真軟件multisim 10.0免費(fèi)下載
- 340992 | 191382次下載 | 10 積分
- 5十天學(xué)會AVR單片機(jī)與C語言視頻教程 下載
- 158M | 183338次下載 | 10 積分
- 6labview8.5下載
- 未知 | 81586次下載 | 10 積分
- 7Keil工具M(jìn)DK-Arm免費(fèi)下載
- 0.02 MB | 73814次下載 | 10 積分
- 8LabVIEW 8.6下載
- 未知 | 65988次下載 | 10 積分
評論