Fetch the repository succeeded.
This action will force synchronization from 狮子的魂/jcseg, which will overwrite any changes that you have made since you forked the repository, and can not be recovered!!!
Synchronous operation will process in the background and will refresh the page when finishing processing. Please be patient.
关于同义词:
同义词具体格式参考:vendors/lexicons/lex-synonyms.lex
在词库的第一行增加CJK_SYN,定义其为同义词词库即可,可以建立多个
基本格式如下:
词根,同义词1[/可选拼音],同义词2[/可选拼音],...同义词n[/可选拼音]
例如:
研究,研讨,研发,研磨/yan mo
要求:
01),第一个词条为词根,这个词条必须是CJK_WORD词库中已有的词条
02),其他同义词可以不用存在,jcseg会自动将其加入词库,并且词条之间相互引用同义词
03),同义词会继承词根的词性和实体定义,也会继承本词条的拼音(如果该词条存在),也可以在其后自定义拼音。
datetime实体识别测试demo(不同datetime部分使用空格分开,方便二次分词处理):
jcseg~tokenzier:NLP>> 2017年3月2日
分词结果:
2017年 3月 2日/t/datetime.ymd
Done, total:9, tokens:1, in 0.00105sec
jcseg~tokenzier:NLP>> 2017年03月07日
分词结果:
2017年 03月 07日/t/datetime.ymd
Done, total:11, tokens:1, in 0.00000sec
jcseg~tokenzier:NLP>> 明天下午4点半
分词结果:
明天 下午 4点半/t/datetime.dahi
Done, total:7, tokens:1, in 0.00000sec
jcseg~tokenzier:NLP>> 下周二上午8点45分
分词结果:
下周二 上午 8点 45分/t/datetime.dahi
Done, total:10, tokens:1, in 0.00000sec
jcseg~tokenzier:NLP>> 2017年03月08日下午15点半去见一个投资人
分词结果:
2017年 03月 08日 下午 15点半/t/datetime.ymdahi 去/q/null 见/n/null 一个/q/null 投资人/n/null
Done, total:24, tokens:5, in 0.00000sec
jcseg~tokenzier:NLP>> 明天凌晨2点一刻产品升级开始
分词结果:
明天 凌晨 2点一刻/t/datetime.dahi 产品/n/null 升级/vn/null 开始/n/null
Done, total:14, tokens:4, in 0.00000sec
jcseg~tokenzier:NLP>> 明天下午15:45
分词结果:
明天 下午 15点 45分/t/datetime.dahi
Done, total:9, tokens:1, in 0.00000sec
jcseg~tokenzier:NLP>> 2017/03/15下午16:45:36开始生日party
分词结果:
2017/03/15 下午 16点 45分 36秒/t/datetime.ymdahis 开始/n/null 生日/n/null party/en/null
Done, total:29, tokens:4, in 0.00210sec
升级指南:
createDefaultDictionary(JcsegTaskConfig config, boolean sync, boolean loadDic)
createSingletonDictionary(JcsegTaskConfig config, boolean loadDic)
/*
* loadDic 用于控制工厂是否自动从config检测并且加载词库,兼容旧版本的默认是自动监测加载
* 方便用户自定义加载自己的设置的词库
*/
<dependency>
<groupId>org.lionsoul</groupId>
<artifactId>jcseg</artifactId>
<version>1.9.9</version>
</dependency>
<dependency>
<groupId>org.lionsoul</groupId>
<artifactId>jcseg-core</artifactId>
<version>1.9.9</version>
</dependency>
<dependency>
<groupId>org.lionsoul</groupId>
<artifactId>jcseg-analyzer</artifactId>
<version>1.9.9</version>
</dependency>
<dependency>
<groupId>org.lionsoul</groupId>
<artifactId>jcseg-elasticsearch</artifactId>
<version>1.9.9</version>
</dependency>
<dependency>
<groupId>org.lionsoul</groupId>
<artifactId>jcseg-server</artifactId>
<version>1.9.9</version>
</dependency>
JcsegTaskConfig() //不做任何内部初始化
JcsegTaskConfig(boolean autoLoad) //是否自动寻找配置文件
JcsegTaskConfig(String proFile) //指定配置文件初始化
JcsegTaskConfig(InputStream is) //指定输入流初始化
load(File file) //从File中载入全部词条
load(String file) //从指定文件路劲中载入全部词条
load(InputStream is) //从输入流中载入全部词条
loadDirectory(String lexDir) //载入一个词库目录下的全部词条
loadClassPath() //从classpath中载入全部词条
同时也可以在jcseg-core-{version}.jar目录下存放一份jcseg.properties配置文件来自定义全部选项,例如:最大切分长度,自定义词库路径等。
JcsegAnalyzer5X(int mode, String proFile)
JcsegAnalyzer5X(int mode, JcsegTaskConfig config)
JcsegAnalyzer5X(int mode, JcsegTaskConfig config, ADictionary dic)
英中: 例如: b超,
英中英: a美1,
英中英中: a哆啦a梦,
中英: 卡拉ok,
中英中: 哆啦a梦,
中英中英: 中文a美a
1.更改jcseg内部设计(更好的适用多线程).
(1).加入JcsegTaskConfig描述Jcseg配置项(提供CloneFromProperties方法用于从jcseg.properties中克隆配置) (2).更改ASegment作用于JcsegTask.(由JcsegFactory产生指定算法和模式的分词工厂) 2.加上文章关键字提取功能. -undone
(1). jar home搜索, 如果没找到尝试(2)
(2). classpath中搜索, 如果没找到尝试(3)
(3). user home搜索. 如果没找到, 抛出异常, 并且会提示解决方法.
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。