selenium + PIL破解bilibili的滑动极验, 详细注释; 注意点是, 点击获取有缺口的验证码图片后, 会在图片上方有一行提示信息, 要等待5至6秒, 等提示信息消失后再行截图, 否则, 提示信息会干扰像素比较;
国内最流行的科研论坛之一------小木虫论坛自动登录爬虫, 扩展之后可以自动领金币, 继续扩展可以爬取用户信息; 但是小木虫对异常请求有一点反爬措施, 要实现爬取, 需要代理IP和 组建cookie池; 温馨提示:本人混迹小木虫多年, 也干过一段时间版主, 而且小木虫属于个人维护的免费论坛, 靠一些广告费维持, 估计也扛不住大家轮番上阵, 所以要本着玩玩就好的心态, 见好就收, 遵守爬虫道德规范......
赶集网租房信息,用了免费代理IP池,MongoDB做存储; 考虑了免费代理因为不稳定而丢失数据的情况(返回带'partial'标记的response, 或者返回信息不完整, 导致无法翻页), 事实上, 不用代理, 只要爬取速度慢一些, 也能成功抓到数据.
A non-blocking net library build from epoll and kqueue. | 一个基于epoll和kqueue的异步网络库。
A powerful shell for process management. | goktrl是一个用于本地进程管理的交互式shell。用于管理正在运行的go程序内部的状态。
1、scrapy框架爬妹子图2、实现按帖子标题来新建文件夹及存储相应图片3、对少量因特殊符号问题匹配出错的图片进行单独保存4、从列表页实现妹子图全网图片爬取5、解释器信息:Python 3.6.4 |Anaconda, Inc.| (default, Mar 13 2017, 01:15:57) 框架信息:Scrapy==1.5.0
抓取科学网博主信息爬虫,提取信息包括一级学科、二级学科、三级学科、博主姓名、博客uid、博主所在单位、博主头衔、博客访问量、博文总数、博客活跃度等。 使用scrapy框架开发,mongodb做存储。
sciencenet项目的补充,主要是因为以学科分级接口去爬取博主信息时,所得博主人数并不完整。主要问题在于,博主提供的研究领域信息不完整或者不正确,所以科学网无法进行归档整理。 所以这个补充程序,从博主姓名字母排序列表接口接入,从而对之前程序进行补充,主要针对博主信息(工作单位、职称、研究领域、博文数量、活跃度、博客访问量)的杂乱进行了处理和入库,除被封博的博主外,允许部分信息缺失,并对缺失值设置默认值。