a日本一道一区二区免费,人妻激情AV第一页,男人的天堂导航在线视频

編者按：數(shù)據(jù)科學(xué)顧問(wèn)Gunnvant Saini講解了如何基于Tf-Idf詞向量和余弦相似性根據(jù)字幕文件找出相似的TED演講。

好吧，我喜歡TED演講，誰(shuí)不喜歡呢？當(dāng)我查看Kaggle上的TED數(shù)據(jù)集（rounakbanik/ted-talks）時(shí)，有不少發(fā)現(xiàn)。首先，由于數(shù)據(jù)集包含許多TED演講的字幕，因此我們有了一個(gè)非常豐富、語(yǔ)言學(xué)上結(jié)構(gòu)良好的語(yǔ)料。其次，由于該語(yǔ)料具備良好的語(yǔ)言學(xué)屬性，它很可能和Reuters 20 News Group或者古登堡語(yǔ)料庫(kù)差不好。這讓我靈機(jī)一動(dòng)：

我有許多TED演講的字幕數(shù)據(jù)，我能?chē)L試找到一種根據(jù)演講相似性推薦TED演講（就像TED官網(wǎng)做的那樣）的方法嗎？

當(dāng)然，TED官網(wǎng)所用的推薦系統(tǒng)，會(huì)比我這里演示的復(fù)雜得多，同時(shí)涉及一些用戶交互的歷史數(shù)據(jù)。

本文想要演示如何僅僅基于內(nèi)容生成推薦。當(dāng)你不具備任何用戶交互數(shù)據(jù)時(shí)，比如在剛開(kāi)始的時(shí)候，這一技術(shù)變得極為重要，它有助于向消費(fèi)者提供內(nèi)容相關(guān)的上下文推薦。

數(shù)據(jù)

字幕儲(chǔ)存于transcript一列，每行對(duì)應(yīng)一個(gè)演講。

import pandas as pd

transcripts=pd.read_csv("E:\Kaggle\ted-data\transcripts.csv")

transcripts.head()

可以看到，從url很容易就能提取演講的標(biāo)題。我的目標(biāo)是使用字幕文本創(chuàng)建相似性的測(cè)度，然后為給定演講推薦4個(gè)最相似的演講。

transcripts['title']=transcripts['url'].map(lambda x:x.split("/")[-1])

transcripts.head()

好了，數(shù)據(jù)預(yù)處理完畢，我可以開(kāi)始創(chuàng)建推薦系統(tǒng)了：

為字幕創(chuàng)建向量表示

為上一步創(chuàng)建的向量表示創(chuàng)建一個(gè)相似性矩陣

基于某種相似性測(cè)度，為每個(gè)演講選定4個(gè)最相似的演講

使用Tf-Idf創(chuàng)建詞向量

由于我們的最終目標(biāo)是基于內(nèi)容相似性推薦演講，我們首先要做的就是為字幕創(chuàng)建便于比較的表示。其中一種方法是為每個(gè)字幕創(chuàng)建一個(gè)tfidf向量。但是，到底什么是tfidf呢？讓我們先討論下這個(gè)概念。

語(yǔ)料庫(kù)、文檔和頻次矩陣

為了表示文本，我們將把每個(gè)字幕看成一個(gè)“文檔”，然后將所有文檔的集合看成一個(gè)“語(yǔ)料庫(kù)”。然后，二維碼將創(chuàng)建一個(gè)向量，表示每個(gè)文檔中詞匯出現(xiàn)的次數(shù)，像這樣：

這些向量組成了一個(gè)矩陣，稱為頻次矩陣（count matrix）。不過(guò)，這樣的表示方式有一個(gè)問(wèn)題。比如，“one”在文檔1中只出現(xiàn)過(guò)一次，但在其他文檔中均未出現(xiàn)，所以“one”是一個(gè)重要的詞匯。但是如果我們查看文檔1的頻次向量，“one”的權(quán)重和“This”、“is”等詞一樣，都是1. 而Tf-Idf可以解決這一問(wèn)題。

詞頻-逆向文檔頻率（Tf-Idf）

為了理解Tf-Idf如何幫助識(shí)別詞匯的重要性，讓我們?cè)儐?wèn)自己幾個(gè)問(wèn)題，如何決定一個(gè)詞匯是否重要？

如果這個(gè)詞匯在文檔中多次出現(xiàn)？

如果這個(gè)詞匯很少在語(yǔ)料庫(kù)中出現(xiàn)？

同時(shí)滿足1和2？

如果一個(gè)詞匯在某個(gè)文檔中頻繁出現(xiàn)，但在語(yǔ)料庫(kù)中的其他文檔中很少出現(xiàn)，那么該詞匯對(duì)這個(gè)文檔很重要。詞頻（term frequency）衡量詞匯在給定文檔中出現(xiàn)的頻繁程度，而逆向文檔頻率（inverse document frequency）衡量詞匯在語(yǔ)料庫(kù)中出現(xiàn)的罕見(jiàn)程度。兩者之積Tf-Idf衡量詞匯的重要程度。使用sklearn機(jī)器學(xué)習(xí)框架，創(chuàng)建Tf-Idf向量表示非常直截了當(dāng)：

from sklearn.feature_extraction import text

Text=transcripts['transcript'].tolist()

tfidf=text.TfidfVectorizer(input=Text,stop_words="english")

matrix=tfidf.fit_transform(Text)

現(xiàn)在我們已經(jīng)解決了如何在詞向量中體現(xiàn)詞匯重要性的問(wèn)題，我們將開(kāi)始考慮下一個(gè)問(wèn)題，如何個(gè)找到給定文檔的相似文檔（在我們的例子中是TED演講字幕）？

查找相似文檔

通常，我們使用余弦相似度，衡量Tf-Idf向量的接近程度。也就是說(shuō)，我將基于Tf-Idf向量創(chuàng)建一個(gè)余弦矩陣，表示文檔兩兩之間的相似程度：

同樣，使用sklearn做這個(gè)非常直接：

from sklearn.metrics.pairwise import cosine_similarity

sim_unigram=cosine_similarity(matrix)

創(chuàng)建了相似度矩陣后，我只需查詢這一矩陣，在每一行找出4個(gè)余弦相似度最高的列，就可以為每個(gè)文檔（字幕）選出最相似的4個(gè)文檔了。

def get_similar_articles(x):

return",".join(transcripts['title'].loc[x.argsort()[-5:-1]])

transcripts['similar_articles_unigram']=[get_similar_articles(x) for x in sim_unigram]

讓我們看下效果，比如，隨便挑一個(gè)演講，看看哪4個(gè)演講和它最相似：

transcripts['title'].str.replace("_"," ").str.upper().str.strip()[1]

'AL GORE ON AVERTING CLIMATE CRISIS'

transcripts['similar_articles_unigram'].str.replace("_"," ").str.upper().str.strip().str.split(" ")[1]

['RORY BREMNER S ONE MAN WORLD SUMMIT',

',ALICE BOWS LARKIN WE RE TOO LATE TO PREVENT CLIMATE CHANGE HERE S HOW WE ADAPT',

',TED HALSTEAD A CLIMATE SOLUTION WHERE ALL SIDES CAN WIN',

',AL GORE S NEW THINKING ON THE CLIMATE CRISIS']

顯然，從標(biāo)題上看，這些演講的主題是相似的。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴