刨丁解羊中文分詞器,主要用于對(duì)網(wǎng)絡(luò)蜘蛛或網(wǎng)絡(luò)爬蟲抓取的網(wǎng)頁進(jìn)行分詞,支持繁體中文分詞、簡體中文分詞、英文分詞,是制作通用搜索引擎和垂直搜索引擎的核心組件。
該軟件在普通PC機(jī)器上測試顯示:TXT格式正文分詞速度約為3000萬字/分鐘,網(wǎng)頁分詞速度約為277.8個(gè)網(wǎng)頁/秒。
該軟件采用基礎(chǔ)詞庫(63萬詞語)+擴(kuò)展詞庫(用戶可手工添加新詞)。DLL及OCX調(diào)用請(qǐng)聯(lián)系QQ(601069289)。
英語中的分詞[participle],分為現(xiàn)在分詞和過去分詞兩種,是一種非謂語動(dòng)詞形式,尤指以-ing或-ed,-d,-t,-en或-n結(jié)尾的英語動(dòng)詞性形容詞,具有形容詞功能,同時(shí)又表現(xiàn)各種動(dòng)詞性特點(diǎn),如時(shí)態(tài),語態(tài)、帶狀語性修飾語的性能及帶賓詞的性能。