本周日(5月27日)码云企业技术分享会【微服务】专场将与你相约上海。阿里、华为、ThoughtWorks的技术大咖齐聚,等你来撩!
Watch Star Fork

mktime / scrapy-douban-groupPythonMIT

加入码云
与超过 200 万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
通过一个实际的项目,来学习如何使用scrapy爬取网络上的信息。这里以豆瓣小组为例,对组内的图片进行爬取,相关信息保存数据到MongoDB,图片下载到本地。
Loading...
README.md 1.79 KB

douban_scrapy

感谢豆瓣小组提供数据来源

环境准备

快速开始

#: 安装必要 python 库

sudo pip install scrapy

sudo pip install pymongo

#: 下载图片到本地,并且保存相关信息到MongoDB中.

scrapy crawl haixiuzu

#: 生成本地相册需要的json data.

python check.py

#: 建立本地http server

python -m SimpleHTTPServer 80

#: 打开浏览器输入http://localhost/gallary

已实现的功能

  • 爬取大家的发贴信息(标题、标题URL、作者、作者URL等),以及下载图片到本地
  • 爬取用户地理位置信息
  • 增加RandomUserAgent功能,防止被BAN
  • 增加延时抓取功能,防止被BAN
  • 由于下载妹子图片较多,故采用hash方法分散到多个目录进行管理,提高打开文件夹速度

计划实现的功能

  • 本地相册功能,可以在浏览器内预览图,通过快捷键j,k,space等对图片进行翻页,加红心,删除等功能
  • 本地相册功能打算借鉴(fgallery)[http://www.thregr.org/~wavexx/software/fgallery/demo/]
  • 如果图片对应的topic已被管理员删除,则高亮显示

更多

项目点评 ( 0 )

你可以在登录后,发表评论

9_float_left_people 9_float_left_close