在經(jīng)過一年多的開發(fā)工作之后,LibRec 3.0 版本終于發(fā)布了。LibRec是一個基于 Java 的開源算法工具庫,覆蓋了 70 余個各類型推薦算法,可以有效解決評分預測和物品推薦兩大關(guān)鍵的推薦問題,目前已經(jīng)在 GitHub 上收獲了 1457 個 Star,612 個 Fork。
2012 年,還在新加坡南洋理工大學攻讀博士學位的郭貴冰開始關(guān)注推薦系統(tǒng)。當時,MyMedialite 是最知名的推薦工具庫之一。作為初學者,郭貴冰一邊看論文,一邊看MyMedialite 的代碼,然后在它的基礎(chǔ)上實現(xiàn)我自己的研究算法。
然而,很快郭貴冰就意識到一個問題,在 Linux 服務器上跑 MyMedialite 會非常麻煩,而且在并行計算的時候諸多限制(相對于 Windows 平臺),在跨平臺方面存在不足。不得已,郭貴冰只好把自己的程序改成熟悉的 Java 代碼,于是得到是最原始的 LibRec。隨著研究和學習的深入,更多的算法慢慢添加到了 LibRec 中,并托管到 GitHub 以便版本控制。
2015 年 11 月,郭貴冰以引進人才的方式加入東北大學軟件學院,任職副教授。由于精力所限,郭貴冰開始組建開源團隊。2016 年 1 月,郭貴冰、王宇峰等人組建起了最初的 LibRec 核心開發(fā)團隊,并不斷擴充團隊。
2016 年 12 月,郭貴冰團隊發(fā)布了 LibRec 2.0 版本。經(jīng)過一年多的開發(fā)之后,郭貴冰團隊又在今日發(fā)布了 LibRec 3.0 版本。
▌LibRec 的特點
LibRec是基于 Java 的開源算法工具庫,覆蓋了 70 余個各類型推薦算法,有效解決評分預測和物品推薦兩大關(guān)鍵的推薦問題。
1)豐富的算法
截止到目前,LibRec已經(jīng)集成了70余個推薦算法。具體包括基準算法,協(xié)同過濾算法,基于內(nèi)容的算法,基于情景感知的算法,混合算法以及其他擴展算法等。同時算法中也包含了概率圖模型,張量分解模型,因子分解機,深度學習中的 RBM 模塊等算法。LibRec 中包含的所有算法均已歸類并注明實現(xiàn)參考文獻。
2)良好的模塊化
目前LibRec中最主要的模塊為DataModel,Recommender,Evaluator與Filter,分別負責數(shù)據(jù)的預處理,推薦模型的訓練,模型的執(zhí)行,輸出結(jié)果的過濾。
3)靈活的框架配置
不同算法的配置項因配置項不同,所以每一個推薦算法分別對應一個配置文件。方便管理的同時也方便用戶根據(jù)算法的執(zhí)行結(jié)果來調(diào)參。目前 LibRec 已經(jīng)針對所有算法配置好了默認參數(shù)。
4)簡單的框架用法
LibRec 分別提供了 Linux 和 Windows 版本的命令行工具。用戶可以根據(jù) LibRec 提供的手冊來編寫配置文件,并使用命令行來執(zhí)行算法。最終評估結(jié)果在終端中輸出,推薦結(jié)果根據(jù)配置文件生成在相應目錄下。
▌LibRec 3.0
經(jīng)過一年多的開發(fā),LibRec 3.0 在原版本的基礎(chǔ)上增加了許多新特性,特別是對如今流行的深度學習、集成學習等算法的支持。
1)深度學習算法
深度學習能夠使用RNN循環(huán)神經(jīng)網(wǎng)絡(luò)對動態(tài)或者序列數(shù)據(jù)進行建模,并且可以更加準確的學習user和item的特征。DeepLearning4J(DL4J)是一套基于Java語言的神經(jīng)網(wǎng)絡(luò)工具包,可以構(gòu)建、定型和部署神經(jīng)網(wǎng)絡(luò)。DL4J 與 Hadoop 和 Spark 集成,支持分布式 CPU 和 GPU,為商業(yè)環(huán)境(而非研究工具目的)所設(shè)計。結(jié)合 DL4J,郭貴冰團隊開發(fā)了深度學習算法模塊。
2)POI 算法
POI 算法主要是指對用戶興趣點推薦(Point Of Interest)。根據(jù)用戶在社交網(wǎng)絡(luò)中的興趣和地理位置信息,分析用戶的標簽屬性和地理偏好,給用戶推薦合適的出行地點?;诘乩砦恢茫F冰團隊實現(xiàn)了 POI 算法模塊。
3)增量更新算法
增量更新主要是提高推薦算法時效性,傳統(tǒng)的個性化推薦系統(tǒng),采用定期離線對數(shù)據(jù)進行分析的做法來更新模型。實時個性化推薦實時分析用戶產(chǎn)生的數(shù)據(jù),可以更準確地為用戶進行推薦,同時根據(jù)實時的推薦結(jié)果進行反饋,更好地改進推薦模型。增量更新模塊實現(xiàn)了部分推薦算法的增量更新功能。
4)集成學習算法
集成學習在機器學習算法中具有較高的準確率,不足之處就是模型的訓練過程可能比較復雜,效率不是很高。集成學習是使用一系列學習器進行學習,并使用某種規(guī)則把各個學習結(jié)果進行整合從而獲得比單個學習器更好的學習效果的一種機器學習方法。增量更新模塊實現(xiàn)了部分推薦算法的增量更新功能。
-
JAVA
+關(guān)注
關(guān)注
20文章
2989瀏覽量
109576 -
GitHub
+關(guān)注
關(guān)注
3文章
483瀏覽量
17674
原文標題:集合70多種推薦算法,東北大學老師用Java寫了一個開源庫,在GitHub上收獲近1500個Star
文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
如何使用mbedtls開源庫
STM32 Foc開源算法是什么
算法開源相關(guān)資料下載
基于FCM算法的隱寫分析算法綜合評估
基于三元Golay隱寫碼的快速隱寫算法
Java數(shù)據(jù)庫連接及網(wǎng)絡(luò)程序設(shè)計
Oracle開源Java EE
一個使用Java語言實現(xiàn)的向量化BLAS庫VectorBLAS

評論