Watch Star Fork

最爱吃小鱼 / WechatSpiderJavaApache-2.0

抓取微信公众号全部文章,采用AnyProxy+Java实现
Clone or download
最爱吃小鱼 authored 2018-02-11 22:40 修正
Cancel
Notice: Creating folder will generate an empty file .keep, because not support in Git
Loading...
README.md 1.25 KB

WechatSpider

抓取微信公众号全部文章,采用AnyProxy+Java实现

启动环境

Java JDK, NodeJs, npm, AnyProxy, Mysql, maven, linux or mac os

准备工作

  1. Mysql 创建表脚本在 db.sql 文件中
  2. 修改项目中application.properties的数据库连接地址

启动

git clone https://gitee.com/poet/WechatSpider.git

// 进入项目的文件夹
cd WechatSpider

// 安装 AnyProxy
npm install -g anyproxy

// 启动 AnyProxy
anyproxy --intercept --silent true  --rule ~/WechatSpider/src/main/resources/spider.js 

// 打包项目
mvn clean install -Dmaven.test.skip=true

// 启动
java -jar target/WechatSplider-1.0-SNAPSHOT.jar

手机代理设置

  1. host设置服务器的地址
  2. port=8001

由于JS引入了cheerio, 需要在resouces目录下面执行 npm install 命令安装

功能概述

  1. 查看历史消息 数据已全部自动抓取
  2. 文章内容点赞量阅读量 已能抓取到,暂不能自动翻页抓取
  3. 评论数及内容 暂未完成

参考资料

  1. http://anyproxy.io/cn
  2. https://github.com/lqqyt2423/wechat_spider
  3. http://www.cnblogs.com/luojiangwen/p/7943696.html
  4. https://gitee.com/zsyoung01/AnyProxy

Comments ( 9 )

You need to Sign in for post a comment

6_float_left_people 6_float_left_close