" />
這是IKAnalyzer-3.2.8.jar下載, IKAnalyzer是一個開源的,基于java語言開發(fā)的輕量級的中文分詞工具包。從2006年12月推出1.0版開始,IKAnalyzer已經(jīng)推出 了3個大版本。最初,它是以開源項目Luence為應(yīng)用主體的,結(jié)合詞典分詞和文法分析算法的中文分詞組件。新版本的IKAnalyzer3.0則發(fā)展為 面向Java的公用分詞組件,獨立于Lucene項目,同時提供了對Lucene的默認優(yōu)化實現(xiàn)。
IKAnalyzer-3.2.8.jar為簡化用戶對查詢邏輯的處理,提供了基于表達式的搜索邏輯處理。它與Lucene自帶表達式的不同之處,在于它采用了IKQueryParser對中文分詞歧義處理的算法。相對Lucene QueryParser而言,用它生成的Query對象也許更能命中搜索結(jié)果。
•1.表達式使用 屬性名<->屬性值 鍵值對的形式,屬性值使用”’”單引號標識。
•2.在鍵值對中使用 “=”等號,表示對該屬性的精確搜索(不分詞),適用于對ID、編號、分類等精確值屬性搜索;使用“: ”冒號表示對屬性的模糊搜索(分詞搜索),適用于文本內(nèi)容的全文搜索。
•3.在使用“: ”時,連續(xù)的搜索關(guān)鍵字將解析為 AND 邏輯,如果關(guān)鍵字中帶有空格,這解析為OR邏輯。如:title:'文檔標題' 表示搜索title中同時包含“文檔”AND“標題“的數(shù)據(jù),title:'文檔_標題' 表示搜索title中包含“文檔”OR“標題“。(這個例子中,我們默認你使用的IK分詞器能將”文檔標題“切分為”文檔“和”標題“兩個詞)
•4.表達式支持“&&”與 “||” 或“-”非的邏輯操作,以及“( )”括號優(yōu)先級定義。注意“-”非邏輯不能單獨使用,即 “– author='helloworld'” 是非法表達式。
•5.目前就是這么簡單,暫不支持更復(fù)雜的搜索邏輯:).
•1.優(yōu)化了英文字符處理,支持如:C++ 等帶符號單詞輸出
•2.簡化了數(shù)詞處理,使輸出結(jié)果更符合用戶觀感
•3.改進了最大詞長切分,使輸出結(jié)果更符合用戶觀感
•4.性能優(yōu)化,目前IK分詞器的速度為約85萬字/秒(1600K字節(jié)/S)
•5.新增IK簡易查詢表達式,簡化用戶使用