代码拉取完成,页面将自动刷新
#! -*- coding:utf-8 -*-
import re
import pymongo
import codecs,sys
from pymongo import MongoClient
import jieba
from gensim import corpora, models, similarities
import jieba.analyse
from pprint import pprint # pretty-printer
import htmldb
reload(sys)
sys.setdefaultencoding('utf-8')
dictpath="dicts.txt"
sentence = u'李小福是创新办主任也是云计算方面的专家'
#jieba.load_userdict(dictpath)
#jieba.suggest_freq((u'专家'), False)
words= jieba.cut(sentence) #,cut_all=True)
print ','.join(words)
'''
匹配【】
'''
text = open("liuduzhou.txt").readlines()
print len(text)
result=''
title=''
head=''
for line in text:
if (len(line.strip())<1):
continue
if re.match(r'【[0-9]+】(.+)',line):
if (len(title)>0):
print head, title, result
htmldb.saveto_mongo("liuduzhou", result, title)
mat = re.match(r'【[0-9]+】(.+)',line)
title=mat.group(1)
head=line
result=''
else:
result+=line
print head, title, result
htmldb.saveto_mongo("liuduzhou",result,title)
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。