分布式大數(shù)據(jù)不一致性檢測
關(guān)系數(shù)據(jù)庫中可能存在數(shù)據(jù)不一致性現(xiàn)象,關(guān)系數(shù)據(jù)庫數(shù)據(jù)質(zhì)量的一個主要問題是存在違反函數(shù)依賴情況,為找出不一致數(shù)據(jù)需要進(jìn)行函數(shù)依賴沖突檢測.集中式數(shù)據(jù)庫中可以通過SQL技術(shù)檢測不一致情況,盡管檢測效率不高;而分布式環(huán)境下不一致性檢測更富有挑戰(zhàn)性,不僅需要考慮數(shù)據(jù)的遷移,檢測任務(wù)如何分配也是一個難題.在大數(shù)據(jù)背景下,上述問題更加突出.提出了一種分布式環(huán)境單函數(shù)依賴不一致性檢測方法。給出了不一致性檢測響應(yīng)時間代價模型,為減少數(shù)據(jù)遷移量和響應(yīng)時間,基于等價類對待檢測數(shù)據(jù)進(jìn)行預(yù)處理.由于分布式環(huán)境不一致性檢測問題為NP-hard問題,多項式時間內(nèi)難以得到最優(yōu)解,給出了代價模型的多項式時間3/2-近似最優(yōu)解.提出了一種分布式環(huán)境多函數(shù)依賴不一致性檢測方法,基于最小集合覆蓋理論通過一次數(shù)據(jù)遍歷,對多個函數(shù)依賴進(jìn)行并行批檢測,同時考慮檢測過程中的負(fù)載均衡等問題.在真實和人工數(shù)據(jù)集上的實驗表明:相對于傳統(tǒng)的檢測方法以及基于Hadoop的Nalve方法,所提出的檢測方法檢測效率有明顯的提升,且擴(kuò)展性能良好。
非常好我支持^.^
(0) 0%
不好我反對
(0) 0%
下載地址
分布式大數(shù)據(jù)不一致性檢測下載
相關(guān)電子資料下載
- 數(shù)據(jù)分析工具有哪幾種模式 83
- 中交興路入選2024北京“數(shù)據(jù)要素×”典型案例集 886
- 隆基全球分布式研發(fā)中心揭牌 265
- 故障排查小能手:輸電線路分布式故障定位裝置大解析 63
- 中國鐵塔與??低曔_(dá)成戰(zhàn)略合作 217
- spark運行的基本流程 92
- 季豐電子與孤波科技攜手合作為車規(guī)量產(chǎn)提供大數(shù)據(jù)支持 740
- 浪潮信息推出基于新一代分布式存儲平臺AS13000G7的AIGC存儲解決方案 816
- 智慧園區(qū)綜合安防系統(tǒng)解決方案 83
- 大數(shù)據(jù)采集系統(tǒng)分為幾類 269