1 Star 0 Fork 1

liinux / IP_POOL

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
work_spider.py 1.06 KB
一键复制 编辑 原始数据 按行查看 历史
shimeng 提交于 2017-09-22 14:02 . 工作函数,脚本从这里启动
#!/usr/bin/env python
# -*- coding: utf-8 -*-
# Created by shimeng on 17-9-21
import sys
# 这里写你自己的地址
sys.path.append('/home/shimeng/code/spider_framework_github_responsity')
from spider.tools import format_put_data
from spider.data_save import pipeline
from spider.html_parser import parser
from spider.page_downloader import aispider
from spider.threads import start, work_queue, save_queue
from spider.log_format import logger
from proxy_basic_config import url_parse_dict
from _request import valid
from get_proxies_base_spider import SpiderMain
class WorkSpider(SpiderMain):
def __init__(self):
super(WorkSpider, self).__init__()
# 重写run方法,
# 若请求的函数为自定义, 则可以在crawl函数中设置: request=your_request_function, 默认为框架中的request
def run(self):
start()
self.craw()
if __name__ == '__main__':
work_spider = WorkSpider()
work_spider.run()
# Blocking
work_queue.join()
save_queue.join()
# Done
logger.info('All Job Finishing, Please Check!')
Python
1
https://gitee.com/tigerxue/IP_POOL.git
git@gitee.com:tigerxue/IP_POOL.git
tigerxue
IP_POOL
IP_POOL
master

搜索帮助