1 Star 0 Fork 0

hotmocha / chinawealth-spider

Create your Gitee Account
Explore and code with more than 8 million developers,Free private repositories !:)
Sign up
This repository doesn't specify license. Please pay attention to the specific project description and its upstream code dependency when using it.
Clone or Download
Cancel
Notice: Creating folder will generate an empty file .keep, because not support in Git
Loading...
README.md

#chinawealth-spider lcspider2.py为最新版本。主要功能为:(1)实时爬取chinawealth所有理财信息; (2)动态更新理财销售区域信息; (3)使用多进程方式(3个进程),一个管理进程,两个工作进程:一个爬取新理财信息进程,一个更新理财销售区域信息进程。 管理进程监视两个工作进程的工作状态,如果异常退出重新启动。 (4)使用mysql数据登记爬取得数据。 lcspider.py:面向过程编程,只有抓取理财信息没有销售区域信息,单进程模式,避开网络对于爬虫的设置机制,对于特定的错误码做等待然后重新爬取。 lcspider1.py:面向过程编程和面向对象结合,但是没有没有做进程的控制,两个进程分别爬取记录信息和理财区域信息(这部分对连续爬取限制的比较严格一般4次就需要休息),使用共享内存做进程间数据交互。碰到mutiprocessing.list长时间运行有管道破裂的问题。阅读python官方网站貌似是个2.7版本的bug。 lcspider2.py:使用mysql数据作为进程数据交互的通道;守护进程方式启动;管理进程的添加,工作进程异常退出的重启;信号处理函数SIGTERM的设置;应用退出的统一管理,由主进程统一强制退出工作进程;工作时间的添加,晚上不爬取。

Repository Comments ( 0 )

Sign in to post a comment

About

chinawealth-spider expand collapse
Python
Cancel

Releases

No release

Contributors

All

Activities

Load More
can not load any more
Python
1
https://git.oschina.net/hotmocha/chinawealth-spider.git
git@git.oschina.net:hotmocha/chinawealth-spider.git
hotmocha
chinawealth-spider
chinawealth-spider
master

Search

103111 552b83b3 1850385 103110 ed87a847 1850385