專業(yè)提供無毒且安全的軟件及游戲下載!
當(dāng)前位置:首頁 > 電腦軟件 > 編程開發(fā) >Jcseg(Java中文分詞器) v2.6.2 官方版

Jcseg(Java中文分詞器) v2.6.2 官方版

  • 軟件大小:4.9MB
  • 更新日期:2021-08-29
  • 語言:簡體中文
  • 類別:編程開發(fā)
  • 適用環(huán)境:WinAll
  • 安全檢測: 無插件 360通過 騰訊通過 金山通過 瑞星通過
  • 暫無下載

軟件介紹

Jcseg官方版是一款輕量級的Java中文分詞器,我們可以通過這款軟件來進(jìn)行關(guān)鍵字、關(guān)鍵短語和關(guān)鍵句的提取。而且Jcseg還將會為用戶提供一個基于Jetty的web服務(wù)器,你可以通過這個服務(wù)器來搜索各種關(guān)鍵詞。

Jcseg官方版

Jcseg官方版軟件功能

Jcseg核心功能:

中文分詞:mmseg算法 + Jcseg 獨創(chuàng)的優(yōu)化算法,七種切分模式。

關(guān)鍵字提?。夯趖extRank算法。

關(guān)鍵短語提取:基于textRank算法。

關(guān)鍵句子提取:基于textRank算法。

文章自動摘要:基于BM25+textRank算法。

自動詞性標(biāo)注:基于詞庫+(統(tǒng)計歧義去除計劃),目前效果不是很理想,對詞性標(biāo)注結(jié)果要求較高的應(yīng)用不建議使用。

命名實體標(biāo)注:基于詞庫+(統(tǒng)計歧義去除計劃),電子郵件,網(wǎng)址,大陸手機(jī)號碼,地名,人名,貨幣,datetime時間,長度,面積,距離單位等。

Restful api:嵌入jetty提供了一個絕對高性能的server模塊,包含全部功能的http接口,標(biāo)準(zhǔn)化json輸出格式,方便各種語言客戶端直接調(diào)用。

Jcseg中文分詞:

七種切分模式:

簡易模式:FMM算法,適合速度要求場合。

復(fù)雜模式:MMSEG四種過濾算法,具有較高的歧義去除,分詞準(zhǔn)確率達(dá)到了98.41%。

檢測模式:只返回詞庫中已有的詞條,很適合某些應(yīng)用場合。

最多模式:細(xì)粒度切分,專為檢索而生,除了中文處理外(不具備中文的人名,數(shù)字識別等智能功能)其他與復(fù)雜模式一致(英文,組合詞等)。

分隔符模式:按照給定的字符切分詞條,默認(rèn)是空格,特定場合的應(yīng)用。

NLP模式:繼承自復(fù)雜模式,更改了數(shù)字,單位等詞條的組合方式,增加電子郵件,大陸手機(jī)號碼,網(wǎng)址,人名,地名,貨幣等以及無限種自定義實體的識別與返回。

n-gram模式:CJK和拉丁系字符的通用n-gram切分實現(xiàn)。

分詞功能特性:

支持自定義詞庫。在lexicon文件夾下,可以隨便添加/刪除/更改詞庫和詞庫內(nèi)容,并且對詞庫進(jìn)行了分類。

支持詞庫多目錄加載. 配置lexicon.path中使用';'隔開多個詞庫目錄.

詞庫分為簡體/繁體/簡繁體混合詞庫: 可以專門適用于簡體切分, 繁體切分, 簡繁體混合切分, 并且可以利用下面提到的同義詞實現(xiàn),簡繁體的相互檢索, Jcseg同時提供了詞庫兩個簡單的詞庫管理工具來進(jìn)行簡繁體的轉(zhuǎn)換和詞庫的合并。

中英文同義詞追加/同義詞匹配 + 中文詞條拼音追加.詞庫整合了《現(xiàn)代漢語詞典》和cc-cedict辭典中的詞條,并且依據(jù)cc-cedict詞典為詞條標(biāo)上了拼音,依據(jù)《中華同義詞詞典》為詞條標(biāo)上了同義詞(尚未完成)。更改jcseg.properties配置文檔可以在分詞的時候加入拼音和同義詞到分詞結(jié)果中。

中文數(shù)字和中文分?jǐn)?shù)識別,例如:"一百五十個人都來了,四十分之一的人。"中的"一百五十"和"四十分之一"。并且 Jcseg會自動將其轉(zhuǎn)換為阿拉伯?dāng)?shù)字加入到分詞結(jié)果中。如:150, 1/40。

支持中英混合詞和英中混合詞的識別(維護(hù)詞庫可以識別任何一種組合)。例如:B超, x射線, 卡拉ok, 奇都KTV, 哆啦a夢。

支持英文的類中文切分,同樣使用mmseg算法來消除歧義,例如:“openarkcompiler”會被切分成:“open ark compiler”,該功能也可以被關(guān)閉。

更好的拉丁支持,電子郵件,域名,小數(shù),分?jǐn)?shù),百分?jǐn)?shù),字母和標(biāo)點組合詞(例如C++, c#)的識別。

自定義切分保留標(biāo)點. 例如: 保留&, 就可以識別k&r這種復(fù)雜詞條。

復(fù)雜英文切分結(jié)果的二次切分: 可以保留原組合,同時可以避免復(fù)雜切分帶來的檢索命中率下降的情況,例如QQ2013會被切分成: qq2013/ qq/ 2013, chenxin619315@gmail.com會被切分成: chenxin619315@gmail.com/ chenxin/ 619315/ gmail/ com。

支持阿拉伯?dāng)?shù)字/小數(shù)/中文數(shù)字基本單字單位的識別,例如2012年,1.75米,38.6℃,五折,并且 Jcseg會將其轉(zhuǎn)換為“5折”加入分詞結(jié)果中。

智能圓角半角, 英文大小寫轉(zhuǎn)換。

特殊字母識別:例如:Ⅰ,Ⅱ;特殊數(shù)字識別:例如:①,⑩。

配對標(biāo)點內(nèi)容提?。豪纾鹤詈玫腏ava書《java編程思想》,‘暢想杯黑客技術(shù)大賽’,被《,‘,“,『標(biāo)點標(biāo)記的內(nèi)容。(1.6.8版開始支持)。

智能中文人名/外文翻譯人名識別。中文人名識別正確率達(dá)94%以上。(中文人名可以維護(hù)lex-lname.lex,lex-dname-1.lex,lex-dname-2.lex來提高準(zhǔn)確率),(引入規(guī)則和詞性后會達(dá)到98%以上的識別正確率)。

自動中英文停止詞過濾功能(需要在jcseg.properties中開啟該選項,lex-stopwords.lex為停止詞詞庫)。

詞庫更新自動加載功能, 開啟一個守護(hù)線程定時的檢測詞庫的更新并且加載(注意需要有對應(yīng)詞庫目錄下的的lex-autoload.todo文件的寫入權(quán)限)。

自動詞性標(biāo)注(目前基于詞庫)。

自動實體的識別,默認(rèn)支持:電子郵件,網(wǎng)址,大陸手機(jī)號碼,地名,人名,貨幣等;詞庫中可以自定義各種實體并且再切分中返回。

下載地址
暫無下載
用戶評論
所有評論(5)
昵稱:
(您的評論需要經(jīng)過審核才能顯示)
精選留言 來自吉林通化移動用戶 發(fā)表于: 2023-12-11
果然是又小又好用
精選留言 來自湖北隨州電信用戶 發(fā)表于: 2023-3-5
終于讓我找到一款不錯的軟件,以后就認(rèn)準(zhǔn)了
精選留言 來自安徽巢湖電信用戶 發(fā)表于: 2023-7-17
拿走用了,感謝分享
精選留言 來自遼寧撫順電信用戶 發(fā)表于: 2023-10-26
不錯的,就喜歡這個版本
精選留言 來自江蘇徐州移動用戶 發(fā)表于: 2023-4-8
支持一下,下載速度一般也是滿速

軟件投訴或糾錯

問題:
說明:
郵箱: