一種面向數(shù)學(xué)檢索的LaTeX數(shù)學(xué)表達式解析與索引方法
針對數(shù)學(xué)表達式復(fù)雜二維結(jié)構(gòu)特性所導(dǎo)致的普通文本檢索技術(shù)難以對其進行檢索的問題,提出了一種面向數(shù)學(xué)檢索的LaTeX數(shù)學(xué)表達式解析與索引方法。在充分考慮公式特點的基礎(chǔ)上,通過對LaTeX構(gòu)成特點的分析和歸納,設(shè)計了LaTeX數(shù)學(xué)表達式的解析和檢索特征提取算法;以此為基礎(chǔ),構(gòu)建了一種適應(yīng)數(shù)學(xué)表達式特性的雙層索引結(jié)構(gòu),利用所提取數(shù)學(xué)表達式各層次運算數(shù)和運算符信息,分別以Treap數(shù)據(jù)結(jié)構(gòu)和倒排索引結(jié)構(gòu)構(gòu)成數(shù)學(xué)表達式索引,為實現(xiàn)進一步的數(shù)學(xué)表達式檢索匹配打下基礎(chǔ)。在瀏覽器/服務(wù)器模式下采用6234條數(shù)學(xué)教材中的公式作為數(shù)據(jù)集進行實驗,在解析獲得的124960個基線層數(shù)最高為11層的表達式節(jié)點上,建立索引平均耗時為33. 8317 s。實驗結(jié)果表明所提出的LaTeX表達式解析算法和索引結(jié)構(gòu)能夠適應(yīng)數(shù)學(xué)表達式的特點,有助于實現(xiàn)具有較高效率和準確性的數(shù)學(xué)表達式檢索。
非常好我支持^.^
(0) 0%
不好我反對
(0) 0%