(文章來源:砍柴網(wǎng))
Apache Spark是專為大規(guī)模數(shù)據(jù)處理而設(shè)計的快速通用的計算引擎,常用來構(gòu)建大型、低延遲的數(shù)據(jù)分析應(yīng)用程序。Spark一個主要特點在于,其能夠在內(nèi)存中進(jìn)行計算,這使得其數(shù)據(jù)分析效率往往高于其它計算引擎,但是,服務(wù)器內(nèi)存資源的限制也使得其性能的擴(kuò)展存在著一定的瓶頸,在超大規(guī)模負(fù)載中無法充分發(fā)揮其利用內(nèi)存進(jìn)行計算的性能優(yōu)勢。
某全球領(lǐng)先的語音識別服務(wù)提供商是最早將Spark應(yīng)用到生產(chǎn)環(huán)境的團(tuán)隊之一,該公司的語音云通過幾千臺服務(wù)器構(gòu)成的云計算平臺向用戶提供多樣的、實時語音處理能力,日均服務(wù)終端用戶超過15億,日增數(shù)據(jù)超過100TB。2014年該公司基于Spark和AI技術(shù)構(gòu)建了DMP大數(shù)據(jù)平臺(用戶數(shù)據(jù)管理平臺)。DMP平臺的主要功能就是收集、存儲、分析和挖掘龐大的用戶數(shù)據(jù),以實現(xiàn)廣告精準(zhǔn)投放。
Spark在該公司的大數(shù)據(jù)平臺中主要用于海量用戶數(shù)據(jù)分析,每天支撐穩(wěn)定運(yùn)行的Spark SQL統(tǒng)計分析指標(biāo)和SQL腳本有幾千個。但是在將Spark SQL用于海量用戶數(shù)據(jù)分析的過程中,仍然面臨著一些痛點,這些都限制了該公司語音云的數(shù)據(jù)分析能力。
Spark的性能不僅受到CPU、內(nèi)存、網(wǎng)絡(luò)、磁盤等硬件設(shè)備的制約,而且Spark SQL目前還不支持索引,也嚴(yán)重影響了Spark SQL在進(jìn)行大規(guī)模數(shù)據(jù)分析時的性能,索引能夠提升數(shù)據(jù)檢索的效率,降低硬盤的IO瓶頸。
隨著數(shù)據(jù)量越來越大,即席分析的需求越來越強(qiáng)烈,即席查詢是用戶根據(jù)用戶自己的需求,靈活選擇查詢條件,系統(tǒng)能夠根據(jù)用戶的選擇生成響應(yīng)的統(tǒng)計報表和結(jié)果集;在數(shù)據(jù)倉庫和大數(shù)據(jù)分析系統(tǒng)中,即席查詢使用的越多,對系統(tǒng)的性能要求也就越高,如果內(nèi)存能夠緩存更多的熱點數(shù)據(jù),能夠極大的提升即席查詢處理速度并降低響應(yīng)延遲。
數(shù)據(jù)既有隨機(jī)讀的需求(即席查詢-Ad-hoc),又有全表掃描的需求(機(jī)器學(xué)習(xí));機(jī)器學(xué)習(xí)就是通過特定算法從海量的歷史數(shù)據(jù)中學(xué)習(xí)規(guī)律,從而對新的樣本進(jìn)行分析并對未來做出預(yù)測,在模型訓(xùn)練的過程中會產(chǎn)生大量的中間結(jié)果數(shù)據(jù),通常情況下需要將中間結(jié)果數(shù)據(jù)持久化到文件系統(tǒng)上,如果內(nèi)存能夠緩存更多的中間結(jié)果數(shù)據(jù),可以提升模型訓(xùn)練的速度。
(責(zé)任編輯:fqj)
-
互聯(lián)網(wǎng)
+關(guān)注
關(guān)注
55文章
11249瀏覽量
106375 -
ai技術(shù)
+關(guān)注
關(guān)注
1文章
1308瀏覽量
25151
發(fā)布評論請先 登錄
1.9倍性能提升!英特爾至強(qiáng)6在MLPerf基準(zhǔn)測試中表現(xiàn)卓越
產(chǎn)品如何做到可靠的防靜電設(shè)計

SSM框架的性能優(yōu)化技巧 SSM框架中RESTful API的實現(xiàn)
藍(lán)牙AOA定位系統(tǒng)如何做到高精準(zhǔn)度?
谷歌正式發(fā)布Gemini 2.0 性能提升近兩倍
兩個高速ADC的CLK時鐘如何做到同步無相位差?
高通驍龍汽車新方案:CPU性能躍升3倍,AI性能狂飆12倍
工程行業(yè)中如何做到低碳甚至零碳
TPA3251如何做到180W的功率,電壓12V,電流應(yīng)該多少?
寫 Verilog 如何做到心中有電路?
大數(shù)據(jù)從業(yè)者必知必會的Hive SQL調(diào)優(yōu)技巧
spark為什么比mapreduce快?
QPS提升10倍的sql優(yōu)化

評論