代码拉取完成,页面将自动刷新
爬取百度搜索结果中c-abstract里的数据,并使用不断更换代理ip的方式绕过百度反爬虫策略,从而实现对数以10w计的词条的百度搜索结果进行连续爬取。
有3个策略:
上述参数均可手动调整。 目前ip池的使用都是一次性的,如果需要更多的优质ip,可参考我的另一个项目Proxy,它是一个代理ip抓取测试评估存储一体化工具,也许可以帮到你。
pip install requests
pip install lxml
pip install beautifulsoup4
git clone https://github.com/fancoo/BaiduCrawler
cd BaiduCrawler
python baidu_crawler.py
本程序仅在win版本的Python3.6测试通过。
cd Py3
python baidu_crawler.py
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。