代码拉取完成,页面将自动刷新
#chinawealth-spider lcspider2.py为最新版本。主要功能为:(1)实时爬取chinawealth所有理财信息; (2)动态更新理财销售区域信息; (3)使用多进程方式(3个进程),一个管理进程,两个工作进程:一个爬取新理财信息进程,一个更新理财销售区域信息进程。 管理进程监视两个工作进程的工作状态,如果异常退出重新启动。 (4)使用mysql数据登记爬取得数据。 lcspider.py:面向过程编程,只有抓取理财信息没有销售区域信息,单进程模式,避开网络对于爬虫的设置机制,对于特定的错误码做等待然后重新爬取。 lcspider1.py:面向过程编程和面向对象结合,但是没有没有做进程的控制,两个进程分别爬取记录信息和理财区域信息(这部分对连续爬取限制的比较严格一般4次就需要休息),使用共享内存做进程间数据交互。碰到mutiprocessing.list长时间运行有管道破裂的问题。阅读python官方网站貌似是个2.7版本的bug。 lcspider2.py:使用mysql数据作为进程数据交互的通道;守护进程方式启动;管理进程的添加,工作进程异常退出的重启;信号处理函数SIGTERM的设置;应用退出的统一管理,由主进程统一强制退出工作进程;工作时间的添加,晚上不爬取。
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。