代码拉取完成,页面将自动刷新
2020-12-08-Top1&Top5.py:作用为匹对所有毒物准确率,Top1的概率,Top5之内配对成功的概率,以及完全未匹对上的毒物个数
Update-Top1&Top5.py:对之前的2020-12-08-Top1&Top5进行优化,加快速度,现在检测速度为15秒,同时优化了一下检测率,加了一个判断:判断selflen要小于等于lst_word
smallposition.py:找出毒物特征少于等于3个特征的毒物,共计1032,其中完全没有特征的毒物有869个
quan-Top1&Top5.py:建立词频权值字典,通过统计所有描述中的特征词,建立对应的字典,然后排序找出最大的,令maxn=最大的出现次数+10,每个特征对应的权值为:(1-(出现的次数/maxn))*10保留两位有效数字。
①将代码进行优化,加快执行速度
②设置权重,统计语料库中的普遍词和特殊词,设置不同的权重,来提高检测毒物率
③将毒物特征少的毒物检索出来,进行特征扩充
④找出毒物族
⑤根据近义词来检索词库
①代码优化Ok
②权重字典库完成,但效果不好
③毒物特征少的毒物以筛出,交由其他成员去进行扩充
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。