4
一行代码完成 TXT语料文本 “初步”清洗。自动转码UTF-8、自动过滤Html标签/url网址/email地址/emoji表情符号/全角字符/无用空白行、自动进行简繁体双向互转、“自定义”进行文本语料高级过滤清洗、自动对人名、地名、组织机构进行遮码处理……最终自动合并TXT语料文件,形成NLP训练用文本语料库。
Python
1年多前
0
实用摸鱼小软件,可以悄咪咪地看本地的txt电子书或者爬取有效电子书网站(例如:纵横中文网)的电子书资源,提供设置界面以便修改配置文件。
Python
12个月前

搜索帮助

53164aa7 5694891 3bd8fe86 5694891