一区二区三区三上|欧美在线视频五区|国产午夜无码在线观看视频|亚洲国产裸体网站|无码成年人影视|亚洲AV亚洲AV|成人开心激情五月|欧美性爱内射视频|超碰人人干人人上|一区二区无码三区亚洲人区久久精品

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

自制Word2Vec圖書(shū)推薦系統(tǒng),幫你找到最想看的書(shū)!

DPVg_AI_era ? 來(lái)源:未知 ? 作者:李倩 ? 2018-09-25 08:53 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

最近有開(kāi)發(fā)者自制了一套圖書(shū)推薦系統(tǒng),使用Word2Vec算法將書(shū)目表示為向量,可以同時(shí)獲得幾種書(shū)籍的推薦結(jié)果,并獲得書(shū)籍的TSNE圖及相似度最高的推薦。圖書(shū)數(shù)據(jù)來(lái)自GoodReads上的評(píng)價(jià)最高的前10000本書(shū)。開(kāi)發(fā)者表示,采用較小的batchsize和長(zhǎng)度可變的窗口可提升推薦相似度。

近日,有開(kāi)發(fā)人員自制了一套圖書(shū)推薦系統(tǒng),使用Word2Vec算法將書(shū)目表示為向量,可以同時(shí)獲得幾種書(shū)籍的推薦,并獲得書(shū)籍的TSNE圖以及相似度最高的推薦信息。訓(xùn)練數(shù)據(jù)來(lái)自GoodReads上的評(píng)價(jià)最高的前10000本書(shū)。

作者將這一系統(tǒng)在Reddit論壇上進(jìn)行了算法介紹和推薦效果圖分享,引發(fā)廣泛討論。我們不妨來(lái)看看這個(gè)自制薦書(shū)系統(tǒng)是怎么做的。

以下是作者自己給出的系統(tǒng)展示和介紹,最后是技術(shù)實(shí)現(xiàn)環(huán)節(jié)的相關(guān)討論。

下面的圖片來(lái)自兩個(gè)2D TSNE生成的圖書(shū)嵌入圖。第一部分是數(shù)據(jù)中最常出現(xiàn)的3000本書(shū)的TNSE(已經(jīng)過(guò)10000本書(shū)的數(shù)據(jù)訓(xùn)練),第二部分是全部10000本書(shū)的TSNE。

我做了兩個(gè)TSNE圖,因?yàn)殡S著書(shū)籍書(shū)目的增加,推薦的準(zhǔn)確度趨于下降,所以我想查看最常出現(xiàn)的書(shū)籍的分布圖,然后再處理其余的書(shū)。

首先最常出現(xiàn)的3000本書(shū)的TSNE圖,先給出幾個(gè)局部放大圖,最后放上全圖。

下圖為作于最近30-40年間的奇幻/古典奇幻類(lèi)書(shū)

中間的部分大部分是漫畫(huà)書(shū),周?chē)且恍┛茖W(xué)類(lèi)書(shū)籍

宇宙科幻類(lèi):

喜劇類(lèi)(主要是電視?。?/p>

全圖

然后是全部10000本書(shū)的TSNE圖,同樣先給出幾個(gè)局部圖,最后是全圖。

歷史類(lèi)書(shū)籍。圖左半部為美國(guó)史,右半部為世界通史

宇宙史和起源理論

兒童經(jīng)典書(shū)目

食品科學(xué)和新聞?lì)?/p>

Word2Vec薦書(shū)系統(tǒng)的技術(shù)實(shí)現(xiàn)

下面是一些技術(shù)上的實(shí)現(xiàn)要點(diǎn),對(duì)機(jī)器學(xué)習(xí)感興趣的小伙伴們可以關(guān)注一下。

1、使用較小的batch size

訓(xùn)練中使用batch size較?。?2和64)對(duì)于確保所有書(shū)籍向量的穩(wěn)健性非常重要。在更高的batch size(128、256和512)下,大多數(shù)向量具有相當(dāng)?shù)南嗨菩?,但似乎總是有一些?shū)的向量不具備相似性。

以《哈利·波特》2-7部的推薦結(jié)果為例,如果直接查看數(shù)據(jù),很容易知道與這些書(shū)相似度最高的書(shū)應(yīng)該是該系列中的其他《哈利·波特》書(shū),但最初推薦模型給出的相似圖書(shū)結(jié)果并非如此。但是,在把batch size設(shè)置為64后,推薦結(jié)果的相似度很快得到明顯改善。

由于平均窗口大小為112,并在20到200之間變化(取決于用戶閱讀的書(shū)籍?dāng)?shù)量),因此像《哈利·波特》這樣的系列叢書(shū)中的一些書(shū),很可能會(huì)與其他書(shū)籍匹配為相似了。

假設(shè)某系列叢書(shū)中共有7本書(shū),并且用戶對(duì)所有7本書(shū)都進(jìn)行了評(píng)分,該用戶還評(píng)價(jià)了112本其他書(shū),那么,其中一本《哈利·波特》書(shū)與另一本《哈利·波特》在該用戶的標(biāo)簽下實(shí)現(xiàn)配對(duì)的概率是6/112。

在這種情況下,由于word2vec試圖一次性優(yōu)化多個(gè)嵌入,因此對(duì)于窗口大小很小且恒定的情況,更高的batch size會(huì)比word2vec算法的應(yīng)用對(duì)結(jié)果優(yōu)化造成更加明顯的阻礙。

2、Softmax嵌入向量算術(shù)

到目前為止,上面的所有矢量算術(shù)示例都是我在書(shū)籍輸入嵌入上執(zhí)行加法和/或減法,然后針對(duì)softmax嵌入對(duì)結(jié)果矢量執(zhí)行相似性結(jié)果的情況。比結(jié)果向量與輸入嵌入進(jìn)行比較要穩(wěn)健得多。

3、可變長(zhǎng)度窗口(VLW)

最初的Word2Vec Cbow算法使用固定的窗口大小的單詞用作特定目標(biāo)的輸入。比如,如果窗口大小是目標(biāo)詞左側(cè)和右側(cè)的2個(gè)單詞,那么在這句“The cat in the hat”中,如果目標(biāo)詞(標(biāo)簽)是“in”,那么單詞'The ','cat','the'和'hat'將各自向量進(jìn)行平均,并將得到的結(jié)果向量作為輸入。

而在這個(gè)薦書(shū)系統(tǒng)中,窗口大小不可能是固定的。對(duì)于特定數(shù)據(jù)點(diǎn)(輸入),由用戶輸入的所有對(duì)全部書(shū)籍的評(píng)價(jià)都可能作為潛在的輸入,而且每個(gè)用戶瀏覽過(guò)的書(shū)籍?dāng)?shù)量彼此存在很大差異,因此窗口大小不可能恒定。

盡管窗口大小不是恒定的,但是平均輸入向量的數(shù)量是保持不變的。所有提供的數(shù)據(jù)都使用兩個(gè)平均向量作為輸入,這樣向量的算術(shù)屬性的穩(wěn)健性是最高的。改變輸入平均向量的數(shù)量,在相似性推薦屬性方面并沒(méi)有表現(xiàn)出明顯優(yōu)勢(shì)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4710

    瀏覽量

    95409
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8503

    瀏覽量

    134638

原文標(biāo)題:【Reddit今日最火】Lit2Vec圖書(shū)推薦系統(tǒng),自動(dòng)推薦適合你的AI好書(shū)!

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    使用Word/Excel管理需求的10個(gè)痛點(diǎn)及解決方案Perforce ALM

    還在用Word/Excel做需求管理?10個(gè)“翻車(chē)信號(hào)”,都是小伙伴們踩過(guò)的坑~來(lái)看看你踩過(guò)哪些?是不是也該升級(jí)到更專業(yè)的ALM工具了~
    的頭像 發(fā)表于 07-10 15:59 ?139次閱讀
    使用<b class='flag-5'>Word</b>/Excel管理需求的10個(gè)痛點(diǎn)及解決方案Perforce ALM

    RFID 系統(tǒng)與智能工具柜:重構(gòu)社康、圖書(shū)館與醫(yī)療行業(yè)的資產(chǎn)管理范式

    在數(shù)字化轉(zhuǎn)型的深水區(qū),基層服務(wù)與專業(yè)機(jī)構(gòu)的資產(chǎn)管理正面臨效率與安全的雙重考驗(yàn):某社康中心每月因疫苗冷鏈記錄疏漏被約談 3 次;某圖書(shū)館年度盤(pán)點(diǎn)耗費(fèi) 500 工時(shí),仍有 12% 圖書(shū)賬實(shí)不符;某醫(yī)院
    的頭像 發(fā)表于 07-07 16:21 ?144次閱讀
    RFID <b class='flag-5'>系統(tǒng)</b>與智能工具柜:重構(gòu)社康、<b class='flag-5'>圖書(shū)</b>館與醫(yī)療行業(yè)的資產(chǎn)管理范式

    圖書(shū)館WiFi總掉線?我的秘密武器居然是它.

    作為一個(gè)泡圖書(shū)館的“網(wǎng)絡(luò)難民”,我太懂那種抓狂了——好不容易找到個(gè)插座坐下,正啃著文獻(xiàn)呢,WiFi突然斷連,IP還被限制訪問(wèn)。重新登錄、換瀏覽器、甚至重啟電腦都不管用...直到我在圖書(shū)館“偶遇”了
    發(fā)表于 06-10 18:05

    basys2開(kāi)發(fā)板說(shuō)明書(shū)

    basys2開(kāi)發(fā)板說(shuō)明書(shū)
    發(fā)表于 06-08 09:52 ?0次下載

    RFID在圖書(shū)館自動(dòng)化中的應(yīng)用

    RFID系統(tǒng),可以實(shí)時(shí)獲取圖書(shū)的位置和狀態(tài)信息,便于及時(shí)調(diào)整管理計(jì)劃。自動(dòng)化:RFID可以與自動(dòng)管理系統(tǒng)結(jié)合,實(shí)現(xiàn)借還書(shū)的自動(dòng)化,減少人力成本。具體應(yīng)用場(chǎng)景1.
    的頭像 發(fā)表于 05-27 17:15 ?219次閱讀
    RFID在<b class='flag-5'>圖書(shū)</b>館自動(dòng)化中的應(yīng)用

    RFID智能書(shū)架:圖書(shū)館數(shù)字化轉(zhuǎn)型的新核心技術(shù)

    隨著數(shù)字化轉(zhuǎn)型的推進(jìn),圖書(shū)館智能化升級(jí)成為趨勢(shì)。RFID智能書(shū)架憑借高效、精準(zhǔn)、自動(dòng)化的管理能力,成為圖書(shū)館現(xiàn)代化轉(zhuǎn)型的新寵。
    的頭像 發(fā)表于 04-28 11:26 ?275次閱讀
    RFID智能書(shū)架:<b class='flag-5'>圖書(shū)</b>館數(shù)字化轉(zhuǎn)型的新核心技術(shù)

    圖書(shū)館效率革命!RFID智能書(shū)柜如何顛覆傳統(tǒng)借閱體驗(yàn)?

    傳統(tǒng)借閱體驗(yàn)繁瑣且低效,圖書(shū)館借閱效率亟待提升。RFID智能書(shū)柜顛覆傳統(tǒng)借閱體驗(yàn),實(shí)現(xiàn)圖書(shū)精準(zhǔn)定位與高效管理。便捷自助借還,縮短借還時(shí)間,降低排隊(duì)時(shí)間,提高借閱體驗(yàn)。
    的頭像 發(fā)表于 04-23 15:21 ?238次閱讀
    <b class='flag-5'>圖書(shū)</b>館效率革命!RFID智能書(shū)柜如何顛覆傳統(tǒng)借閱體驗(yàn)?

    RFID圖書(shū)管理系統(tǒng)如何重構(gòu)數(shù)字化倉(cāng)儲(chǔ)管理新生態(tài)

    圖書(shū)館與出版行業(yè)數(shù)字化轉(zhuǎn)型進(jìn)程中,RFID圖書(shū)管理系統(tǒng)正打破傳統(tǒng)人工管理的效率瓶頸,通過(guò)與數(shù)字化倉(cāng)儲(chǔ)管理系統(tǒng)的深度融合,實(shí)現(xiàn)從圖書(shū)采購(gòu)、入
    的頭像 發(fā)表于 04-18 16:59 ?281次閱讀
    RFID<b class='flag-5'>圖書(shū)</b>管理<b class='flag-5'>系統(tǒng)</b>如何重構(gòu)數(shù)字化倉(cāng)儲(chǔ)管理新生態(tài)

    智慧閱讀觸手可及——RFID微型圖書(shū)館,你了解嗎?

    RFID微型圖書(shū)館是一種新型的閱讀模式,通過(guò)射頻識(shí)別技術(shù)構(gòu)建的小型化、智能化圖書(shū)館設(shè)施。它提供24小時(shí)自助服務(wù)、多種登錄方式、圖書(shū)定位與查找、快速盤(pán)點(diǎn)圖書(shū)和數(shù)據(jù)統(tǒng)計(jì)與分析等功能,極大地
    的頭像 發(fā)表于 04-09 15:37 ?285次閱讀
    智慧閱讀觸手可及——RFID微型<b class='flag-5'>圖書(shū)</b>館,你了解嗎?

    74LVC2G86-Q100雙2輸入異或門(mén)規(guī)格書(shū)

    電子發(fā)燒友網(wǎng)站提供《74LVC2G86-Q100雙2輸入異或門(mén)規(guī)格書(shū).pdf》資料免費(fèi)下載
    發(fā)表于 02-11 14:14 ?0次下載
    74LVC<b class='flag-5'>2</b>G86-Q100雙<b class='flag-5'>2</b>輸入異或門(mén)規(guī)格<b class='flag-5'>書(shū)</b>

    Spire.Cloud.Word云端Word文檔處理SDK介紹

    Spire.Cloud.Word 是一款專業(yè)的云端 Word 文檔處理 SDK,開(kāi)發(fā)人員使用它在云端創(chuàng)建、讀取、編輯、轉(zhuǎn)換和保存 Word 文檔。作為一款完全獨(dú)立的組件,運(yùn)行環(huán)境無(wú)需安裝
    的頭像 發(fā)表于 02-11 11:11 ?496次閱讀
    Spire.Cloud.<b class='flag-5'>Word</b>云端<b class='flag-5'>Word</b>文檔處理SDK介紹

    二維碼掃描頭嵌入在圖書(shū)自助管理設(shè)備中的應(yīng)用案例

    在當(dāng)今數(shù)字化時(shí)代,二維碼掃描技術(shù)已廣泛應(yīng)用于各行各業(yè),其中,在圖書(shū)自助管理設(shè)備中的嵌入應(yīng)用尤為引人注目。這不僅極大地提升了圖書(shū)館的服務(wù)效率與用戶體驗(yàn),還實(shí)現(xiàn)了圖書(shū)管理流程的智能化與自動(dòng)化。以下將詳細(xì)
    的頭像 發(fā)表于 12-19 16:22 ?576次閱讀
    二維碼掃描頭嵌入在<b class='flag-5'>圖書(shū)</b>自助管理設(shè)備中的應(yīng)用案例

    如何保障圖書(shū)館用電安全?——安科瑞 丁佳雯

    一、圖書(shū)館的安全挑戰(zhàn)? 圖書(shū)館作為公共場(chǎng)所,其電氣系統(tǒng)復(fù)雜且龐大,包括照明、空調(diào)、電腦、電子閱讀設(shè)備等眾多用電設(shè)備。這些設(shè)備在長(zhǎng)時(shí)間運(yùn)行過(guò)程中,可能會(huì)因老化、接觸不良或設(shè)計(jì)缺陷等原因產(chǎn)生故障電弧
    的頭像 發(fā)表于 12-13 14:34 ?446次閱讀
    如何保障<b class='flag-5'>圖書(shū)</b>館用電安全?——安科瑞 丁佳雯

    智慧圖書(shū)館能耗監(jiān)測(cè)優(yōu)化管理系統(tǒng)方案

    優(yōu)化管理系統(tǒng)方案,旨在通過(guò)智能化手段實(shí)現(xiàn)對(duì)圖書(shū)館能耗的全面監(jiān)測(cè)、精準(zhǔn)分析與高效管理,有效減少能耗成本并提高能源利用效率。 通過(guò)在圖書(shū)館各區(qū)域配電室內(nèi)部署物通博聯(lián)工業(yè)智能網(wǎng)關(guān),實(shí)時(shí)采集智能電表數(shù)據(jù),如電量、電壓
    的頭像 發(fā)表于 09-11 13:41 ?882次閱讀

    聚徽-什么是智能圖書(shū)

    智能圖書(shū)館(Intelligent Library,簡(jiǎn)稱 IL)是把智能技術(shù)運(yùn)用在圖書(shū)館建設(shè)之中形成的一種現(xiàn)代化建筑,是智能建筑與高度自動(dòng)化管理的數(shù)字圖書(shū)館的有機(jī)結(jié)合和創(chuàng)新。它應(yīng)同時(shí)具備兩者的設(shè)計(jì)思想、基本要求、特征和功能。智能
    的頭像 發(fā)表于 08-05 09:51 ?627次閱讀