98 Star 324 Fork 99

DTC2 / ECommerceCrawlers

Create your Gitee Account
Explore and code with more than 5 million developers,Free private repositories !:)
Sign up
Clone or download
Cancel
Notice: Creating folder will generate an empty file .keep, because not support in Git
Loading...
README.md

GitHub contributors

ECommerceCrawlers

多种电商商品数据🐍爬虫,整理收集爬虫练习。通过实战项目练习解决一般爬虫中遇到的问题。

通过每个项目的readme,了解爬取过程分析。

对于精通爬虫的pyer,这将是一个很好的例子减少重复收集轮子的过程。项目经常更新维护,确保即下即用,减少爬取的时间。

对于小白通过✍️实战项目,了解爬虫的从无到有。爬虫过程的分析可以移步项目wiki。爬虫可能是一件非常复杂、技术门槛很高的事情,但掌握正确的方法,在短时间内做到能够爬取主流网站的数据,其实非常容易实现,但建议从一开始就要有一个具体的目标。

在目标的驱动下,你的学习才会更加精准和高效。那些所有你认为必须的前置知识,都是可以在完成目标的过程中学到的😁😁😁。

欢迎大家对本项目的不足加以指正,⭕️Issues或者🔔Pr

在之前上传的大文件贯穿了3/4的commits,发现每次clone达到100M,这与我们最初的想法违背,我们不能很有效的删除每一个文件(太懒),将重新进行初始化仓库的commit。并在今后不上传爬虫数据,优化仓库结构。

CrawlerDemo

Contribution👏

@Joynice @liangweiyang

wait for you

What You Learn ?

本项目使用了哪些有用的技术

  • 数据分析
    • chrome Devtools
    • Fiddler
    • Firefox
    • appnium
    • anyproxy
    • mitmproxy
  • 数据采集
  • 数据解析
    • re
    • beautifulsoup
    • xpath
    • pyquery
    • css
  • 数据保存
    • txt文本
    • csv
    • excel
    • mysql
    • redis
    • mongodb
  • 反爬验证
    • mitmproxy 绕过淘宝检测
    • js数据解密
    • js数据生成对应指纹库
    • 文字混淆
    • 穿插脏数据
  • 效率爬虫
    • 单线程
    • 多线程
    • 多进程
    • 异步协成
    • 分布式爬虫系统

链接标识官方文档或推荐例子

What`s Spider 🕷?

🙋0x01 爬虫简介

爬虫

爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。

爬虫作用

  • 市场分析:电商分析、商圈分析、一二级市场分析等
  • 市场监控:电商、新闻、房源监控等
  • 商机发现:招投标情报发现、客户资料发掘、企业客户发现等

网页介绍

  • url
  • html
  • css
  • js

Roobots协议

无规矩不成方圆,Robots协议就是爬虫中的规矩,它告诉爬虫和搜索引擎哪些页面可以抓取,哪些不可以抓取。 通常是一个叫作robots.txt的文本文件,放在网站的根目录下。

🙋0x02爬取过程

获取数据

模拟获取数据

🙋0x03解析数据

re

beautifulsoup

xpath

yquery

css

🙋0x04 存储数据

小规模数据存储(文本)

  • txt文本
  • csv
  • excel

大规模数据存储(数据库)

  • mysql
  • redis
  • mongodb

🙋0x05 反爬措施

反爬

反反爬

🙋0x06 效率爬虫

多线程

多进程

异步协程

scrapy框架

Padding

…………

Awesome-Example😍:

Comments ( 8 )

Sign in for post a comment

About

实战多种网站、电商数据爬虫。包含:淘宝商品、微信公众号、大众点评、闲鱼、阿里任务、百度贴吧、豆瓣电影、包图网、全景网、豆瓣音乐、某省药监局、搜狐新闻、机器学习文本采集、fofa资产采集、汽车之家️️️ spread retract
Cancel

Releases

No release

Gitee Metrics

Contributors

All

Activities

load more
can not load any more
Python
1
https://git.oschina.net/zymITsky/ECommerceCrawlers.git
git@git.oschina.net:zymITsky/ECommerceCrawlers.git
zymITsky
ECommerceCrawlers
ECommerceCrawlers
master

Search