不規(guī)則文本中商品名稱識別的特征選擇
大?。?/span>0.40 MB 人氣: 2017-11-24 需要積分:1
標簽:識別(31879)
傳統(tǒng)的命名實體識別任務多見于人名、地名、機構名這些普通的命名實體,且大多采用規(guī)則文本進行研究。隨著電子商務和互聯(lián)網廣告的不斷發(fā)展,如何從用戶的各種不規(guī)則的上下文信息中自動識別出商品名稱這一特殊的命名實體成為了一個需要解決的問題。為了解決這一問題,建立了一個最大熵模型用于識別論壇發(fā)帖這種不規(guī)則文本中的商品名稱,并探討了多種特征對于識別效果的影響。這些特征不僅包括傳統(tǒng)命名實體識別方法中所使用的局部特征和布朗聚類特征,還包括詞的分布式表示這種比較新穎的特征。這些特征按照各種不同的方式進行組合作為模型的輸入。在CPRODOI評測數(shù)據(jù)集上的實驗結果表明,布朗聚類特征能夠有效地提高商品名稱識別系統(tǒng)的準確性。
?
非常好我支持^.^
(0) 0%
不好我反對
(0) 0%