当前仓库属于暂停状态,部分功能使用受限,详情请查阅 仓库状态说明
1 Star 0 Fork 2

Glory_hui / 知乎网站爬虫_spider_zhihu
暂停

forked from O2LEE / 知乎网站爬虫_spider_zhihu
暂停
 
加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
贡献代码
同步代码
取消
提示: 由于 Git 不支持空文件夾,创建文件夹后会生成空的 .keep 文件
Loading...
README
说明:

1、暂时没有时间去弄分布式,先把单机版的整理好

2、数据结构见《数据结构设计》

3、项目分了几层
   dao - 主要是数据库操作类
   service - 主要是对象的服务类
   proxy - 主要是HTTPHEADER的组装,IP池的管理(IP池暂时没有使用middlewares.py里有一点实现,但是配置里注释掉了)

   --其他类的说明:
   dbm.py - 数据库配置
   db_connection.py  数据库连接管理(数据库连接的获取、释放)
   spider_property.py 是所有全局变量的管理,主要是集中管理一些URL,免得到爬虫代码里改
   另外,发现python3.6下面没有好的数据库连接池的实现,有空得自己写一套

4、不用登录也可以爬取数据,只是回答的数据只有一页,如果登录后就可以爬取下一页了
   使不使用登录可以在spider_zhihutopic.py类里使用need_login = False来进行控制,作了个简单的判断而已


另外,经过分析后发现,文章信息和回答信息的数据不需要在HTML上进行分析,只需要拿到一个DIV,解析给出的JSON数据即可
data_state = response.xpath(".//div[@id='data']/@data-state").extract()
回答的下一页的URL也在其中,格式请见文件:
    article_json.json - 文章详细页面拿到的json
    answer-page2.json - 请求回答的下一页拿到的json, 如果没有数据了,data为空,可以作为判断依据

空文件

简介

知乎爬虫: 1、暂时没有时间去弄分布式,先把单机版的整理好 2、数据结构见《数据结构设计》 3、项目分了几层 dao - 主要是数据库操作类 service - 主要是对象的服务类 proxy - 主要是HTTPHEADER的组装,IP池的管理(IP池暂时没有使用middlewares.py里有一点实现,但是配置里注释掉了) --其他类的说明: dbm.py - 数据库配置 db_connection.py 数据库连接管理(数据库连接的获取、释放) spider_property.py 是所有全局变量的管理,主要是集中管理一些URL,免得到爬虫代码里改 另外,发现python3.6下面没有好的数据库连接池的实现,有... 展开 收起
Python
取消

发行版

暂无发行版

贡献者

全部

近期动态

加载更多
不能加载更多了
Python
1
https://gitee.com/glory_hui/spider_zhihu.git
git@gitee.com:glory_hui/spider_zhihu.git
glory_hui
spider_zhihu
知乎网站爬虫_spider_zhihu
master

搜索帮助