代码拉取完成,页面将自动刷新
分布式爬虫系统
暂只支持豆瓣和政府数据网
软件架构说明
修改engineer和leader中监管中心的地址
需要的话修改爬取频率
启动即可
代理的配置
下载nginx1.18.x
注意要把依赖装上
检出正向代理nginx插件
git clone https://gitee.com/siusn/ngx_http_proxy_connect_module.git
进入nginx的解压目录,选择布丁:
patch -p1 < /lab/ngx_http_proxy_connect_module/patch/proxy_connect_rewrite_1018.patch
编译
./configure \
--user=www \
--group=www \
--prefix=/usr/local/nginx \
--with-http_ssl_module \
--with-http_stub_status_module \
--with-http_realip_module \
--with-threads \
--with-stream \
--with-stream_ssl_preread_module \
--with-stream_ssl_module \
--add-module=/lab/ngx_http_proxy_connect_module
配置nginx
server {
listen 9143;
# dns resolver used by forward proxying
resolver 114.114.114.114;
# forward proxy for CONNECT request
proxy_connect;
proxy_connect_allow 443;
proxy_connect_connect_timeout 10s;
proxy_connect_read_timeout 10s;
proxy_connect_send_timeout 10s;
# forward proxy for non-CONNECT request
location / {
proxy_pass http://$host;
proxy_set_header Host $host;
}
}
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。