1 Star 0 Fork 1

呆呆 / LSTM-CRF-medical

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
贡献代码
同步代码
取消
提示: 由于 Git 不支持空文件夾,创建文件夹后会生成空的 .keep 文件
err
res
Loading...
README

LSTM-CRF-medical

构建医疗实体识别的模型,包含词典和语料标注,基于python构建

数据集合标注

数据集合标注可以基于词典,通过最大匹配获得实体位置,然后标注实体类型。

词典构造

目前构造的词典包括疾病词典、症状词典和身体部位词典。疾病词典包括互联网爬取的疾病名称、疾病别名、ICD10疾病名称,去重后共39615条数据;症状为互联网爬取的症状描述,去重后共7457条数据;身体部位为互联网爬取的身体部位描述,去重后共1929条数据。示例如下:

疾病名称:1型糖尿病性急性牙周脓肿,妊娠合并系统性红斑狼疮,结石性胆囊炎,药物性股骨坏死,晚期梅毒性脉络膜炎,腹型过敏性紫癜

症状:胀痛,耳后长包,睡觉流口水,鼻塞,粉红色泡沫样痰,孕妇气喘,痔疮便血,头昏眼花

身体部位:鼻唇沟,鼻处,鼻子,鼻子尖,鼻孔,鼻尖,鼻窦软骨,鼻翼,鼻黏膜

实体检索

选取了ICD10中的5000条疾病描述,根据已有词典进行实体的最大匹配。

以疾病为例,对于输入的疾病描述进行规范化,去掉空格、换行符,去掉无意义的句头和句尾字词等。

对规范化的句子,使用词典中的每个词进行全匹配,记录匹配的词、词的起始index、词的结束index和实体类型。

空文件

简介

构建医疗实体识别的模型,包含词典和语料标注,基于python构建 展开 收起
取消

发行版

暂无发行版

贡献者

全部

近期动态

加载更多
不能加载更多了
1
https://gitee.com/smarteas/LSTM-CRF-medical.git
git@gitee.com:smarteas/LSTM-CRF-medical.git
smarteas
LSTM-CRF-medical
LSTM-CRF-medical
master

搜索帮助

53164aa7 5694891 3bd8fe86 5694891