代码拉取完成,页面将自动刷新
关于同义词:
同义词具体格式参考:vendors/lexicons/lex-synonyms.lex
在词库的第一行增加CJK_SYN,定义其为同义词词库即可,可以建立多个
基本格式如下:
词根,同义词1[/可选拼音],同义词2[/可选拼音],...同义词n[/可选拼音]
例如:
研究,研讨,研发,研磨/yan mo
要求:
01),第一个词条为词根,这个词条必须是CJK_WORD词库中已有的词条
02),其他同义词可以不用存在,jcseg会自动将其加入词库,并且词条之间相互引用同义词
03),同义词会继承词根的词性和实体定义,也会继承本词条的拼音(如果该词条存在),也可以在其后自定义拼音。
datetime实体识别测试demo(不同datetime部分使用空格分开,方便二次分词处理):
jcseg~tokenzier:NLP>> 2017年3月2日
分词结果:
2017年 3月 2日/t/datetime.ymd
Done, total:9, tokens:1, in 0.00105sec
jcseg~tokenzier:NLP>> 2017年03月07日
分词结果:
2017年 03月 07日/t/datetime.ymd
Done, total:11, tokens:1, in 0.00000sec
jcseg~tokenzier:NLP>> 明天下午4点半
分词结果:
明天 下午 4点半/t/datetime.dahi
Done, total:7, tokens:1, in 0.00000sec
jcseg~tokenzier:NLP>> 下周二上午8点45分
分词结果:
下周二 上午 8点 45分/t/datetime.dahi
Done, total:10, tokens:1, in 0.00000sec
jcseg~tokenzier:NLP>> 2017年03月08日下午15点半去见一个投资人
分词结果:
2017年 03月 08日 下午 15点半/t/datetime.ymdahi 去/q/null 见/n/null 一个/q/null 投资人/n/null
Done, total:24, tokens:5, in 0.00000sec
jcseg~tokenzier:NLP>> 明天凌晨2点一刻产品升级开始
分词结果:
明天 凌晨 2点一刻/t/datetime.dahi 产品/n/null 升级/vn/null 开始/n/null
Done, total:14, tokens:4, in 0.00000sec
jcseg~tokenzier:NLP>> 明天下午15:45
分词结果:
明天 下午 15点 45分/t/datetime.dahi
Done, total:9, tokens:1, in 0.00000sec
jcseg~tokenzier:NLP>> 2017/03/15下午16:45:36开始生日party
分词结果:
2017/03/15 下午 16点 45分 36秒/t/datetime.ymdahis 开始/n/null 生日/n/null party/en/null
Done, total:29, tokens:4, in 0.00210sec
升级指南:
createDefaultDictionary(JcsegTaskConfig config, boolean sync, boolean loadDic)
createSingletonDictionary(JcsegTaskConfig config, boolean loadDic)
/*
* loadDic 用于控制工厂是否自动从config检测并且加载词库,兼容旧版本的默认是自动监测加载
* 方便用户自定义加载自己的设置的词库
*/
<dependency>
<groupId>org.lionsoul</groupId>
<artifactId>jcseg</artifactId>
<version>1.9.9</version>
</dependency>
<dependency>
<groupId>org.lionsoul</groupId>
<artifactId>jcseg-core</artifactId>
<version>1.9.9</version>
</dependency>
<dependency>
<groupId>org.lionsoul</groupId>
<artifactId>jcseg-analyzer</artifactId>
<version>1.9.9</version>
</dependency>
<dependency>
<groupId>org.lionsoul</groupId>
<artifactId>jcseg-elasticsearch</artifactId>
<version>1.9.9</version>
</dependency>
<dependency>
<groupId>org.lionsoul</groupId>
<artifactId>jcseg-server</artifactId>
<version>1.9.9</version>
</dependency>
JcsegTaskConfig() //不做任何内部初始化
JcsegTaskConfig(boolean autoLoad) //是否自动寻找配置文件
JcsegTaskConfig(String proFile) //指定配置文件初始化
JcsegTaskConfig(InputStream is) //指定输入流初始化
load(File file) //从File中载入全部词条
load(String file) //从指定文件路劲中载入全部词条
load(InputStream is) //从输入流中载入全部词条
loadDirectory(String lexDir) //载入一个词库目录下的全部词条
loadClassPath() //从classpath中载入全部词条
同时也可以在jcseg-core-{version}.jar目录下存放一份jcseg.properties配置文件来自定义全部选项,例如:最大切分长度,自定义词库路径等。
JcsegAnalyzer5X(int mode, String proFile)
JcsegAnalyzer5X(int mode, JcsegTaskConfig config)
JcsegAnalyzer5X(int mode, JcsegTaskConfig config, ADictionary dic)
英中: 例如: b超,
英中英: a美1,
英中英中: a哆啦a梦,
中英: 卡拉ok,
中英中: 哆啦a梦,
中英中英: 中文a美a
1.更改jcseg内部设计(更好的适用多线程).
(1).加入JcsegTaskConfig描述Jcseg配置项(提供CloneFromProperties方法用于从jcseg.properties中克隆配置) (2).更改ASegment作用于JcsegTask.(由JcsegFactory产生指定算法和模式的分词工厂) 2.加上文章关键字提取功能. -undone
(1). jar home搜索, 如果没找到尝试(2)
(2). classpath中搜索, 如果没找到尝试(3)
(3). user home搜索. 如果没找到, 抛出异常, 并且会提示解决方法.
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。