一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

TensorFlow宣布開源TXF的一個(gè)重要組件:“數(shù)據(jù)驗(yàn)證”

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-09-24 09:35 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

編者按:在KDD 2017上,Google推出基于TensorFlow的可擴(kuò)展機(jī)器學(xué)習(xí)平臺TFX,主打管理數(shù)據(jù)、訓(xùn)練模型、模型評估和模型服務(wù)四塊內(nèi)容。而今天,TensorFlow宣布開源TXF的一個(gè)重要組件:“數(shù)據(jù)驗(yàn)證(tf.DataValidation)”,可幫助開發(fā)人員更好地認(rèn)識數(shù)據(jù),并將其用于機(jī)器學(xué)習(xí)。

ML算法及其性能一直是學(xué)術(shù)界和工業(yè)界關(guān)注的一個(gè)重點(diǎn),如果輸入數(shù)據(jù)有誤,所有的優(yōu)化工作就會(huì)付諸東流。在數(shù)據(jù)量較少的時(shí)候,理解和驗(yàn)證數(shù)據(jù)只是一項(xiàng)微不足道的任務(wù),但是在實(shí)踐中,研究人員使用的數(shù)據(jù)量往往非常龐大,這就給手動(dòng)檢查造成了巨大壓力。因此,自動(dòng)化數(shù)據(jù)分析、驗(yàn)證和監(jiān)管是有必要的。

TFDV(數(shù)據(jù)驗(yàn)證)是TFX平臺的一部分,它也是Google每天用來分析和驗(yàn)證數(shù)PB數(shù)據(jù)的技術(shù)。鑒于此前它在數(shù)據(jù)糾錯(cuò)上一直有不錯(cuò)的表現(xiàn),Google相信,TFDV也可以被用戶作為維持ML模型性能的一個(gè)好工具。

在設(shè)計(jì)TFDV的早期,Google就已經(jīng)考慮到了在筆記本電腦環(huán)境中使用它的需求,所以對于硬件要求,大家可以放寬心。

計(jì)算描述性數(shù)據(jù)統(tǒng)計(jì)

TFDV可以計(jì)算描述性統(tǒng)計(jì)數(shù)據(jù),根據(jù)存在的特征和值分布的形狀快速概述數(shù)據(jù)。這些統(tǒng)計(jì)信息有助于開發(fā)人員調(diào)查和了解他們的數(shù)據(jù),并據(jù)此推斷數(shù)據(jù)模式。

用TFDV計(jì)算統(tǒng)計(jì)信息:

stats = tfdv.generate_statistics_from_tfrecord(data_location=path)

可視化:

推斷數(shù)據(jù)模式

所謂數(shù)據(jù)模式,就是描述數(shù)據(jù)的預(yù)期性能,它可以包括:

預(yù)計(jì)將出現(xiàn)哪些特征

它們的類型

每個(gè)樣本中,一個(gè)特征有幾個(gè)值

所有樣本中,每個(gè)特征的出現(xiàn)幾率

特征的預(yù)期域

簡而言之,模式描述了對“正確”數(shù)據(jù)的期望,因此可被用于檢測數(shù)據(jù)中的錯(cuò)誤。但是在實(shí)踐中,編寫模式可能是非常繁瑣的,尤其是對于具有大量特征的數(shù)據(jù)集。TFDV提供了一種基于描述性統(tǒng)計(jì)信息,生成旨在反映數(shù)據(jù)穩(wěn)定特征的模式的方法:

#根據(jù)統(tǒng)計(jì)信息推斷模式

schema = tfdv.infer_schema(train_stats)

#以表格格式顯示內(nèi)聯(lián)模式

tfdv.display_schema(schema)

上圖是個(gè)簡單的可視化,列出了數(shù)據(jù)集中的每個(gè)特征以及它在編碼模式下的主要特征。

驗(yàn)證新數(shù)據(jù)

給定一個(gè)模式,TFDV可以根據(jù)模式中的期望驗(yàn)證一組新數(shù)據(jù)。

#統(tǒng)計(jì)一組新數(shù)據(jù)

new_stats = tfdv.generate_statistics_from_csv(NEW_DATA)

#比較新數(shù)據(jù)如何符合模式

anomalies = tfdv.validate_statistics(new_stats, schema)

#顯示內(nèi)聯(lián)異常

tfdv.display_anomalies(異常)

上述異常報(bào)告了新數(shù)據(jù)和模式之間的差別

驗(yàn)證持續(xù)添加的數(shù)據(jù)

對于數(shù)據(jù)集中不斷增加的新數(shù)據(jù),我們需要用原模式對它們進(jìn)行驗(yàn)證。但是,在常規(guī)設(shè)置中,這個(gè)模式每個(gè)一段時(shí)間都會(huì)維護(hù)一次,它基于統(tǒng)計(jì)信息,而統(tǒng)計(jì)信息又會(huì)受新加入的數(shù)據(jù)影響。因此,之前我們推斷的模式只是原始模式,它還必須要能隨著時(shí)間推移不斷變化。

用validate_statistics驗(yàn)證新添加的數(shù)據(jù)

如果想可視化不同數(shù)據(jù)集(不同日期的數(shù)據(jù)集)的統(tǒng)計(jì)數(shù)據(jù),用visualize_statistics:

用Facets可視化兩組數(shù)據(jù)的比較,示例:DAY1、DAY2票價(jià)對比

TFDV還可以檢測連續(xù)版本訓(xùn)練數(shù)據(jù)之間的分布變化,這有助于對比連續(xù)版本數(shù)據(jù)集之間的統(tǒng)計(jì)信息,如果發(fā)現(xiàn)有刪改/添加的情況,應(yīng)及時(shí)在檢查數(shù)據(jù)異常時(shí),更新信息。此外,TFDV還能檢查訓(xùn)練數(shù)據(jù)和服務(wù)系統(tǒng)觀察到的數(shù)據(jù)之間的特征值/分布差異,并用Facets可視化。

Github:github.com/tensorflow/data-validation

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8503

    瀏覽量

    134660
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1224

    瀏覽量

    25460
  • tensorflow
    +關(guān)注

    關(guān)注

    13

    文章

    330

    瀏覽量

    61187

原文標(biāo)題:TensorFlow新庫TFDV:大規(guī)模理解、驗(yàn)證和監(jiān)控你的ML數(shù)據(jù)

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    關(guān)于 TensorFlow

    關(guān)于 TensorFlowTensorFlow? 是個(gè)采用數(shù)據(jù)流圖(data flow graphs),用于數(shù)值計(jì)算的開源軟件庫。節(jié)點(diǎn)(Nodes)在圖中表示數(shù)學(xué)操作,圖中的線(ed
    發(fā)表于 03-30 19:57

    MIPS宣布開源

    ,12月17日宣布MIPS將在2019年第季度發(fā)布最新的core R6時(shí)開源,此舉旨在加速M(fèi)IPS指令集架構(gòu)的普及。MIPS開放計(jì)劃將允許參與者自由訪問“最新版本的32位和64位MIPS ISA
    發(fā)表于 12-21 10:36

    情地使用Tensorflow吧!

    關(guān)于 TensorFlowTensorFlow? 是個(gè)采用數(shù)據(jù)流圖(data flow graphs),用于數(shù)值計(jì)算的開源軟件庫。節(jié)點(diǎn)(Nodes)在圖中表示數(shù)學(xué)操作,圖中的線(ed
    發(fā)表于 07-22 10:13

    TensorFlow是什么

    TensorFlow 在深度學(xué)習(xí)模型中的應(yīng)用,使讀者可以輕松地將模型用于數(shù)據(jù)集并開發(fā)有用的應(yīng)用程序。每章包含系列處理技術(shù)問題、依賴性、代碼和解讀的示例,在每章的最后,還有
    發(fā)表于 07-22 10:14

    TensorFlow、PyTorch,“后浪”O(jiān)neFlow 有沒有機(jī)會(huì)

    TensorFlow、PyTorch,“后浪”O(jiān)neFlow 有沒有機(jī)會(huì) | 流科技工程師成誠編者按:7月31日,流科技在創(chuàng)業(yè)1300天后,他們宣布
    發(fā)表于 07-27 08:24

    南京E創(chuàng)譚小慧:介紹OpenEDI開源數(shù)據(jù)基礎(chǔ)組件

    2021大會(huì)的“openDACS V1.0 主線版本開源論壇”,代表E創(chuàng)介紹了“開源發(fā)布-OpenEDI開源數(shù)據(jù)基礎(chǔ)組件”。本文采用知識共
    發(fā)表于 07-01 14:37

    蔚來汽車掛牌紐交所,12位車主“替”李斌敲了鐘

    個(gè)重要組件:「數(shù)據(jù)驗(yàn)證(tf.DataValidation)」,可幫助開發(fā)人員更好地認(rèn)識
    的頭像 發(fā)表于 09-16 10:46 ?3707次閱讀

    谷歌推出了AdaNet,個(gè)基于TensorFlow的輕量化框架

    AdaNet采用TensorFlow估計(jì)器的交互界面,它通過簡單訓(xùn)練、評估,大大簡化了機(jī)器學(xué)習(xí)的編程過程。它把TensorFlow Hub模塊、TensorFlow模型分析和谷歌云的超參數(shù)調(diào)整期等
    的頭像 發(fā)表于 11-05 15:27 ?3386次閱讀

    谷歌推出開源的量子機(jī)器學(xué)習(xí)庫TensorFlow Quantum

    谷歌在其官方AI博客宣布推出TensorFlow Quantum(TFQ),這是個(gè)開源的量子機(jī)器學(xué)習(xí)庫,可將量子計(jì)算與機(jī)器學(xué)習(xí)結(jié)合在
    的頭像 發(fā)表于 03-11 14:25 ?2687次閱讀

    開源機(jī)器學(xué)習(xí)平臺TensorFlow的更新內(nèi)容

    TensorFlow 2.2.0-rc0已發(fā)布,據(jù)官方介紹,TensorFlow個(gè)采用數(shù)據(jù)流圖(data flow graphs),用
    的頭像 發(fā)表于 03-15 14:53 ?2127次閱讀

    鴻蒙滑動(dòng)拼圖驗(yàn)證組件分享 已開源

    ?? 基于安卓平臺的滑動(dòng)拼圖驗(yàn)證組件 SwipeCaptcha,實(shí)現(xiàn)了鴻蒙化遷移和重構(gòu),代碼已經(jīng)開源,目前已經(jīng)獲得了很多人的 Star 和 Fork ,歡迎各位下載使用并提出寶貴意見
    的頭像 發(fā)表于 12-03 10:04 ?3304次閱讀
    鴻蒙滑動(dòng)拼圖<b class='flag-5'>驗(yàn)證</b><b class='flag-5'>組件</b>分享 已<b class='flag-5'>開源</b>

    2022 OpenHarmony組件大賽,共建開源組件

    個(gè)繁榮、充滿活力的OpenHarmony開源社區(qū)。 眾家共建人才匯聚 OpenHarmony開源組件生態(tài)蓬勃發(fā)展 在計(jì)算機(jī)編程中,
    的頭像 發(fā)表于 04-26 17:31 ?1765次閱讀
    2022 OpenHarmony<b class='flag-5'>組件</b>大賽,共建<b class='flag-5'>開源</b><b class='flag-5'>組件</b>

    TensorFlow手勢識別樹莓派開源

    電子發(fā)燒友網(wǎng)站提供《TensorFlow手勢識別樹莓派開源.zip》資料免費(fèi)下載
    發(fā)表于 11-09 09:27 ?1次下載
    <b class='flag-5'>TensorFlow</b>手勢識別樹莓派<b class='flag-5'>開源</b>

    驗(yàn)證組件配置參數(shù)

    些典型 的 驗(yàn)證組件 配 置參數(shù)示例:? 個(gè)agent可以被配置為 active 或者 passive 模式。在active模式下age
    的頭像 發(fā)表于 06-14 10:20 ?911次閱讀
    <b class='flag-5'>驗(yàn)證</b><b class='flag-5'>組件</b>配置參數(shù)

    個(gè)開源MCU級的命令行交互組件

    個(gè)開源MCU級命令行交互組件~
    的頭像 發(fā)表于 10-17 16:26 ?683次閱讀
    <b class='flag-5'>一</b><b class='flag-5'>個(gè)</b><b class='flag-5'>開源</b>MCU級的命令行交互<b class='flag-5'>組件</b>