一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

軟件巨頭Salesforce帶來AutoML殺手TransmogrifAI

zhKF_jqr_AI ? 來源:未知 ? 作者:工程師曾玲 ? 2018-08-18 11:32 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

如果說去年“機(jī)器換人”的輿論來自車間的機(jī)器人手,那今年在全球范圍內(nèi)揮舞起“自動化”大棒的,就成了機(jī)器學(xué)習(xí)。上月,李飛飛發(fā)布面向商業(yè)公司的機(jī)器學(xué)習(xí)庫AutoML,技術(shù)門檻之低,讓不少工程師擔(dān)憂不已。一波未平,8月月初,美國德州農(nóng)工大學(xué)開源Auto Keras,同樣的功能,但是完全免費(fèi)。而今天,軟件巨頭Salesforce也入場了,他們帶來的TransmogrifAI,才可能是真正的AutoML“殺手”。

以下內(nèi)容來自Salesforce Einstein數(shù)據(jù)科學(xué)高級總監(jiān)Shubha Nabar:

在過去十年中,盡管機(jī)器學(xué)習(xí)取得了巨大進(jìn)步,但構(gòu)建可用的機(jī)器學(xué)習(xí)系統(tǒng)卻依然是件難事。三年前,當(dāng)我們著手把機(jī)器學(xué)習(xí)功能部署到Salesforce平臺時,大家才發(fā)現(xiàn),原來構(gòu)建企業(yè)級機(jī)器學(xué)習(xí)系統(tǒng)更加困難。為了解決這個問題,我們開發(fā)了TransmogrifAI(發(fā)音為trans-mog-ri-phi)——一種用于處理結(jié)構(gòu)化數(shù)據(jù)的端到端自動化機(jī)器學(xué)習(xí)庫,它也是現(xiàn)在Einstein平臺優(yōu)化功能的一個工具。

今天,我們把這個項目分享給開源社區(qū)。未來,數(shù)據(jù)科學(xué)家和開發(fā)人員可以用它快速大規(guī)模地構(gòu)建機(jī)器學(xué)習(xí)解決方案。

TransmogrifAI GitHub:github.com/salesforce/TransmogrifAI

當(dāng)數(shù)據(jù)科學(xué)家在為商業(yè)產(chǎn)品構(gòu)建機(jī)器學(xué)習(xí)功能時,他們通常會關(guān)注易于理解的樣本和數(shù)據(jù)集。相比之下,企業(yè)擁有的數(shù)據(jù)和樣本是多樣化的,這種多樣性使構(gòu)建企業(yè)級機(jī)器學(xué)習(xí)系統(tǒng)成了一項挑戰(zhàn)。在Salesforce,我們的客戶可能希望預(yù)測一系列結(jié)果——從客戶流失、銷售預(yù)測、潛在用戶轉(zhuǎn)化,到數(shù)字廣告點(diǎn)擊、網(wǎng)購、報價接受、設(shè)備故障和延遲付款等,

對于企業(yè)客戶來說,他們的數(shù)據(jù)是保密的、不可共享的,這兩點(diǎn)至關(guān)重要。這意味著我們必須針對客戶,用給定的數(shù)據(jù)樣本構(gòu)建機(jī)器學(xué)習(xí)模型。同時,構(gòu)建全局模型絕對沒有意義,因為每個企業(yè)都獨(dú)立無二,他們有不同的商業(yè)模式,也有各自的經(jīng)營規(guī)模和業(yè)務(wù)渠道,用機(jī)器學(xué)習(xí)的術(shù)語講,就是有不同的偏差。

為了讓機(jī)器學(xué)習(xí)真正為客戶服務(wù),我們要做的就是構(gòu)建和部署上千個用不同數(shù)據(jù)樣本訓(xùn)練得到的個性化機(jī)器學(xué)習(xí)模型!而如果不想聘請大批數(shù)據(jù)科學(xué)家,實現(xiàn)這一目標(biāo)的唯一方法就是自動化。

TransmogrifAI工作流程

通常情況下,如果要構(gòu)建性能良好的機(jī)器學(xué)習(xí)模型,它需要的研究量和開發(fā)量是相當(dāng)可觀的。數(shù)據(jù)準(zhǔn)備、特征工程、模型訓(xùn)練……這些繁瑣過程需要不斷迭代,為了得到成熟的模型,數(shù)據(jù)科學(xué)家們可能要耗費(fèi)數(shù)周乃至數(shù)月的時間。

TransmogrifAI是一個基于Scala和SparkML構(gòu)建的庫,它能承擔(dān)這個過程中的部分工作。只需幾行代碼,數(shù)據(jù)科學(xué)家就可以自動完成數(shù)據(jù)清理、特征工程和模型選擇,然后訓(xùn)練出一個高性能模型,進(jìn)行進(jìn)一步探索和迭代。

它封裝了機(jī)器學(xué)習(xí)過程的五個主要步驟:

特征推斷(Feature Inference)

數(shù)據(jù)是所有機(jī)器學(xué)習(xí)管道的第一步。數(shù)據(jù)科學(xué)家先收集所有相關(guān)數(shù)據(jù),再進(jìn)行整平操作,添加、聚合不同數(shù)據(jù)源,從中提取可能有助于預(yù)測的原始信號。這之后,提取得到的信號會被放進(jìn)靈活的數(shù)據(jù)結(jié)構(gòu)中,也就是DataFrame,方便后續(xù)操作。雖然這些數(shù)據(jù)結(jié)構(gòu)簡單且易于操作,但其中還是存在一些錯誤,可能會對下游造成影響,比如存在類型錯誤和空值錯誤。

TransmogrifAI可以幫助解決這類問題。它允許用戶為其數(shù)據(jù)指定類型,自動把原始預(yù)測變量和響應(yīng)信號提取為“特征”。除了原始類型,TransmogrifAI的支持面更豐富、更細(xì)化,地理位置、電話號碼、郵政編碼……凡是數(shù)據(jù)科學(xué)家可能頻繁遇到的,它都能進(jìn)行區(qū)分。

事實上,即便用戶沒有指定,TransmogrifAI也可以自行推斷。例如,當(dāng)它檢測到數(shù)據(jù)中的文本特征其實是分類特征時,它會記錄這個錯誤并進(jìn)行適當(dāng)處理。不用等到運(yùn)行時再報錯,數(shù)據(jù)科學(xué)家在編譯時就能找出大多數(shù)錯誤。

自動化特征工程(Transmogrification)

雖然找到正確的類型有助于數(shù)據(jù)推理和減少對下游的不良影響,但最終所有特征都是要被轉(zhuǎn)換成數(shù)字表示的。只有這樣,機(jī)器學(xué)習(xí)算法才能尋找并利用其中的規(guī)律。這個過程被稱為特征工程。

舉個例子,我們該怎么把美國的各個州(如CA, NY, TX等)轉(zhuǎn)成數(shù)字?一種方法是把每個州映射為1到50之間的數(shù)字,因為美國一共有50個州。但這種編碼方法的缺點(diǎn)在于沒有保留州與州之間地理位置上的關(guān)系。那么如果我們計算州中心點(diǎn)到美國中心點(diǎn)的距離,并以此為編碼依據(jù)呢?這確實可以解決之前提到的問題,但它同樣無法反映東西南北位置。

所以特征工程的方法有無數(shù)種,但是找出正確的一種十分不容易。

TransmogrifAI可以幫數(shù)據(jù)科學(xué)家自動化這個惱人的過程。它為自己支持的所有特征類型提供了無數(shù)種編碼技術(shù),能做到不僅把數(shù)據(jù)轉(zhuǎn)成算法可用的格式,還能優(yōu)化轉(zhuǎn)換,使機(jī)器學(xué)習(xí)算法更容易從數(shù)據(jù)中學(xué)習(xí)。例如,同樣是年齡數(shù)字特征,它能根據(jù)特定問題(時尚行業(yè)、金融理財)把它們轉(zhuǎn)成最合適的年齡段。

盡管TransmogrifAI已經(jīng)具備了上述強(qiáng)大能力,但考慮到特征工程是一場無窮無盡的“博弈”,它也支持用戶自定義和擴(kuò)展默認(rèn)值。

自動化特征驗證(Feature Validation)

特征工程可能導(dǎo)致數(shù)據(jù)維度出現(xiàn)爆炸性增長,而高維數(shù)據(jù)往往會讓模型出現(xiàn)差錯!其中最典型的是模型過擬合,另一個容易被忽視但影響巨大的問題是數(shù)據(jù)泄露。

假設(shè)我們手頭有一個包含交易信息的數(shù)據(jù)集,任務(wù)是預(yù)測最終的交易金額,而數(shù)據(jù)集上一個條目叫“已結(jié)算交易金額”,這是完成交易后才能統(tǒng)計到的信息。如果我們不慎把這個信息也放進(jìn)訓(xùn)練集里,模型就會發(fā)現(xiàn)它的“可參考性”極強(qiáng),最后成為一個測試時精度極高,實踐時一無所用的廢品。

事實上,在Salesforce業(yè)務(wù)中,這種后見之明的偏見尤其成問題,因為大部分客戶的數(shù)據(jù)很復(fù)雜,平時也是自動填充的,這使得數(shù)據(jù)科學(xué)家很容易混淆因果關(guān)系。

TransgmogrifAI包含執(zhí)行自動特征驗證的算法,可以刪除幾乎沒有預(yù)測能力的特征——隨著時間的推移而使用的特征,表現(xiàn)出零方差的特征,或者在訓(xùn)練樣本中的分布與預(yù)測時的分布存在顯著不同的特征。在處理含有偏差的高維數(shù)據(jù)時,這些算法會用一系列基于特征類型的統(tǒng)計測試,結(jié)合特征譜系來檢測和排除偏差。

自動化模型選擇(Model Selection)

完成所有關(guān)于數(shù)據(jù)預(yù)處理的工作后,數(shù)據(jù)科學(xué)家就該把機(jī)器學(xué)習(xí)算法應(yīng)用于準(zhǔn)備好的數(shù)據(jù)以構(gòu)建預(yù)測模型。如果是手動完成,他們往往需要嘗試許多不同的算法,并找到合適的參數(shù)設(shè)置。這是個耗時的工程。

TransmogrifAI的模型選擇器可以在數(shù)據(jù)上運(yùn)行多種算法,并比較它們的平均驗證錯誤,從中挑出最佳算法。除此之外,它還能通過適當(dāng)?shù)貙?shù)據(jù)進(jìn)行采樣并重新校準(zhǔn)預(yù)測以匹配真實的先驗,自動處理不平衡數(shù)據(jù)的問題,進(jìn)一步提高模型性能。

超參數(shù)優(yōu)化(Hyperparameter Optimization)

上述自動化步驟的基礎(chǔ)都涉及超參數(shù)優(yōu)化,它幾乎無處不在。而就是這么一個耗時久、任務(wù)量重、讓數(shù)據(jù)科學(xué)家望而生畏的操作,它背后的技術(shù)原理卻不難,可以直接看成一個高性能模型和一個隨機(jī)數(shù)生成器模型。這個任務(wù),TransmogrifAI可以代勞。、

賦予每個人使用ML技術(shù)的權(quán)利

總的來看,現(xiàn)在TransmogrifAI在Salesforce內(nèi)部已經(jīng)成功把訓(xùn)練模型所需的總時間從幾周、幾個月縮短到了幾個小時。而封裝所有這些復(fù)雜操作的代碼卻非常簡單,只需短短幾行就能搞定:

// 讀取交易數(shù)據(jù)

val dealData = DataReaders.Simple.csvCase[Deal](path = pathToData).readDataset().toDF()

// 提取原始信號,預(yù)測特征

val (isClosed, predictors) = FeatureBuilder.fromDataFrame[RealNN](dealData, response = "isClosed")

// 自動化特征工程

val featureVector = predictors.transmogrify()

// 自動化特征驗證

val cleanFeatures = survived.sanityCheck(featureVector, removeBadFeatures = true)

// 自動化模型選擇

val (pred, raw, prob) = BinaryClassificationModelSelector().setInput(isClosed, cleanFeatures).getOutput()

// 設(shè)置工作流程,訓(xùn)練模型

val model = newOpWorkflow().setInputDataset(dealData).setResultFeatures(pred).train()

這意味著TransmogrifAI已經(jīng)成為一個變革。

在我們眼里,這種自動化水平的工具對開發(fā)面向企業(yè)的機(jī)器學(xué)習(xí)系統(tǒng)至關(guān)重要,因此我們也相信,隨著機(jī)器學(xué)習(xí)在各行各業(yè)的應(yīng)用場景不斷拓寬,對運(yùn)營方式產(chǎn)生巨大影響,未來企業(yè)對機(jī)器學(xué)習(xí)系統(tǒng)的需求會不斷增大,而那時,TransmogrifAI這樣的自動化機(jī)器學(xué)習(xí)庫可以幫助他們實現(xiàn)目標(biāo),實現(xiàn)轉(zhuǎn)變。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    35041

    瀏覽量

    279093
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8501

    瀏覽量

    134537

原文標(biāo)題:又一個AutoML庫:Salesforce開源TransmogrifAI

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    新思科技(Synopsys)、西門子、楷登電子(Cadence)三大巨頭恢復(fù)對華EDA銷售

    新思科技(Synopsys)、西門子、楷登電子(Cadence)三大芯片設(shè)計軟件巨頭正式恢復(fù)對華供貨;意味著美國已正式取消對中國芯片設(shè)計軟件(EDA)出口限制。 據(jù)外媒彭博社報道,美國商務(wù)部已通知
    的頭像 發(fā)表于 07-03 16:22 ?660次閱讀
    新思科技(Synopsys)、西門子、楷登電子(Cadence)三大<b class='flag-5'>巨頭</b>恢復(fù)對華EDA銷售

    突發(fā),EDA軟件再傳斷供!這或是中國傳感器被卡脖子最嚴(yán)重的地方!

    ? ? 今日,中國半導(dǎo)體產(chǎn)業(yè)再傳,受美國商務(wù)部工業(yè)安全局(BIS)的調(diào)查影響,國外巨頭對中國企業(yè)斷供EDA軟件,這一信息引起軒然大波。 ? ? EDA軟件在芯片設(shè)計中至關(guān)重要,沒有EDA軟件
    的頭像 發(fā)表于 05-28 18:59 ?2654次閱讀
    突發(fā),EDA<b class='flag-5'>軟件</b>再傳斷供!這或是中國傳感器被卡脖子最嚴(yán)重的地方!

    廣汽集團(tuán)與達(dá)索系統(tǒng)簽署戰(zhàn)略合作協(xié)議

    近日,由廣汽集團(tuán)孵化的低空出行品牌高域科技與全球工業(yè)軟件巨頭達(dá)索系統(tǒng)在廣州正式簽署戰(zhàn)略合作協(xié)議,雙方將攜手推動低空出行產(chǎn)業(yè)的數(shù)字化創(chuàng)新,為未來城市立體交通體系打造創(chuàng)新解決方案。
    的頭像 發(fā)表于 03-24 11:41 ?479次閱讀

    電氣火災(zāi)的“隱形殺手”:故障電弧,你了解多少?

    一、背景 隨著電氣化程度的不斷提高,電氣火災(zāi)事故頻發(fā),造成了嚴(yán)重的人員傷亡和財產(chǎn)損失。據(jù)統(tǒng)計,電氣火災(zāi)已成為火災(zāi)事故的主要原因之一,而故障電弧則是引發(fā)電氣火災(zāi)的“隱形殺手”。故障電弧是指由于電氣線路
    的頭像 發(fā)表于 03-19 16:45 ?427次閱讀
    電氣火災(zāi)的“隱形<b class='flag-5'>殺手</b>”:故障電弧,你了解多少?

    警惕靜電:電路板的隱形殺手? ?

    在 PCBA 加工領(lǐng)域,靜電猶如一個潛伏在暗處的隱形殺手,時刻威脅著電路板的安全與性能。稍有不慎,它就能給電路板帶來難以估量的損害,造成巨大的經(jīng)濟(jì)損失。今天,就讓我們深入了解一下靜電給電路板帶來
    的頭像 發(fā)表于 03-18 13:09 ?490次閱讀
    警惕靜電:電路板的隱形<b class='flag-5'>殺手</b>?  ?

    今日看點(diǎn)丨蘋果被曝正研發(fā)智能眼鏡和攝像頭版AirPods;智元發(fā)布家務(wù)機(jī)器人基座大模型 GO-1

    1. 傳國產(chǎn) ERP 軟件巨頭用友裁員進(jìn)行中,至少 2000+ 人受影響 ? 近日,有網(wǎng)友爆料,國產(chǎn)ERP軟件巨頭用友要開始大裁員了,去年一年用友經(jīng)營虧損家中,24年全年虧損的數(shù)值將近20億
    發(fā)表于 03-11 11:23 ?411次閱讀

    AIGC軟件免費(fèi)嗎

    當(dāng)今,AIGC軟件以其高效、便捷的特點(diǎn),為人們的創(chuàng)作和工作帶來了極大的便利。那么,AIGC軟件是否免費(fèi)呢?下面,AI部落小編帶您了解。
    的頭像 發(fā)表于 03-07 09:42 ?288次閱讀

    歐盟重新評估科技巨頭調(diào)查

    近日,據(jù)知情人士透露,歐盟委員會正對蘋果、Meta及Alphabet旗下谷歌等科技巨頭展開的調(diào)查進(jìn)行重新評估。這一消息引起了業(yè)界的廣泛關(guān)注。 據(jù)悉,這些科技巨頭近期積極敦促美國當(dāng)選總統(tǒng)特朗普對歐盟
    的頭像 發(fā)表于 01-15 15:33 ?444次閱讀

    Salesforce解決方案

    Skyvia 提供了許多工具來幫助 Salesforce 用戶處理許多不同的情況 ? Skyvia 可以通過提供與其他應(yīng)用程序集成的簡單方法、安全的 Salesforce 備份、報告和分析輔助工具等
    的頭像 發(fā)表于 01-02 14:01 ?436次閱讀
    <b class='flag-5'>Salesforce</b>解決方案

    Salesforce第三季度業(yè)績穩(wěn)健增長

    近日,云軟件巨頭Salesforce發(fā)布了其第三季度財務(wù)報告,數(shù)據(jù)顯示公司業(yè)績穩(wěn)健增長。 在第三季度,Salesforce實現(xiàn)了94.4億美元的營收,同比增長8.3%,略高于市場預(yù)期的93.5億美元
    的頭像 發(fā)表于 12-05 11:14 ?636次閱讀

    SensiML開源了Analytics Studio AutoML引擎

    我們很高興地宣布,我們的AutoML服務(wù)器應(yīng)用程序Analytics Studio將很快在開源許可下提供。我們還將推出一個新的開源項目網(wǎng)站,以聯(lián)合一個致力于為 tinyML 模型開發(fā)創(chuàng)建全面的、與硬件無關(guān)的解決方案的開發(fā)人員社區(qū)。此次發(fā)布計劃于初夏進(jìn)行,我們正準(zhǔn)備在您的支持下取得成功。
    的頭像 發(fā)表于 11-06 09:36 ?804次閱讀
    SensiML開源了Analytics Studio <b class='flag-5'>AutoML</b>引擎

    SAP成為歐洲最高市值科技公司

    德國商業(yè)軟件巨頭思愛普(SAP)在周二早盤的交易中股價飆升超過5%,市值因此激增逾240億歐元,達(dá)到了約2731億歐元的新高度。這一表現(xiàn)使得思愛普成功超越了阿斯麥,成為歐洲市值最高的科技公司。阿斯麥當(dāng)前的市值約為2643.7億歐元,略低于思愛普。
    的頭像 發(fā)表于 10-23 17:01 ?1182次閱讀

    優(yōu)步加速電氣化進(jìn)程,電動汽車超18萬輛

    美國打車軟件巨頭優(yōu)步近日宣布,其正在加速推進(jìn)電氣化措施,以實現(xiàn)零排放平臺的目標(biāo)。據(jù)優(yōu)步CEO達(dá)拉·科斯羅薩西(Dara Khosrowshahi)透露,目前優(yōu)步車隊中電動汽車的數(shù)量已超過18萬輛。
    的頭像 發(fā)表于 10-11 17:49 ?775次閱讀

    甲骨文攜手Rai Way,強(qiáng)化AI應(yīng)用與數(shù)據(jù)安全

    近日,全球領(lǐng)先的軟件巨頭甲骨文與意大利基礎(chǔ)設(shè)施服務(wù)提供商Rai Way宣布達(dá)成重要合作。雙方將攜手在Rai Way分布廣泛的數(shù)據(jù)中心部署甲骨文的人工智能應(yīng)用系統(tǒng),為企業(yè)客戶帶來前所未有的服務(wù)體驗與安全保障。
    的頭像 發(fā)表于 07-27 17:19 ?2562次閱讀

    SensiML開源AutoML解決方案-Piccolo AI發(fā)布

    SensiML強(qiáng)大的Analytics Studio軟件開發(fā)工具的開源版本-Piccolo AI發(fā)布了!Piccolo AI遵循AGPL許可,面向個人開發(fā)者、研究人員和AI愛好者,旨在將AutoML
    的頭像 發(fā)表于 07-22 16:53 ?1046次閱讀