2 Star 9 Fork 5

守望者 / mklearn

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
zyfc.py 1.04 KB
一键复制 编辑 原始数据 按行查看 历史
守望者 提交于 2016-09-29 14:31 . update
#! -*- coding:utf-8 -*-
import re
import pymongo
import codecs,sys
from pymongo import MongoClient
import jieba
from gensim import corpora, models, similarities
import jieba.analyse
from pprint import pprint # pretty-printer
import htmldb
reload(sys)
sys.setdefaultencoding('utf-8')
dictpath="dicts.txt"
sentence = u'李小福是创新办主任也是云计算方面的专家'
#jieba.load_userdict(dictpath)
#jieba.suggest_freq((u'专家'), False)
words= jieba.cut(sentence) #,cut_all=True)
print ','.join(words)
'''
匹配【】
'''
text = open("liuduzhou.txt").readlines()
print len(text)
result=''
title=''
head=''
for line in text:
if (len(line.strip())<1):
continue
if re.match(r'【[0-9]+】(.+)',line):
if (len(title)>0):
print head, title, result
htmldb.saveto_mongo("liuduzhou", result, title)
mat = re.match(r'【[0-9]+】(.+)',line)
title=mat.group(1)
head=line
result=''
else:
result+=line
print head, title, result
htmldb.saveto_mongo("liuduzhou",result,title)
Python
1
https://gitee.com/househou/mklearn.git
git@gitee.com:househou/mklearn.git
househou
mklearn
mklearn
master

搜索帮助