1 Star 0 Fork 50

redlevers / syy-spider

forked from jimmy_JYue / jy-spider 
加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
贡献代码
同步代码
取消
提示: 由于 Git 不支持空文件夾,创建文件夹后会生成空的 .keep 文件
Loading...
README

速云优网络爬虫 - 功能简介

速云优网站的垂直爬取网页程序,提供UI来管理爬取的网站和爬取文章内容的规则。
通过jsoup来获取标题和内容,主要是通过选择器获取。
链接的提取通过正则表达式来匹配,[如:http://www.runoob.com/java/[\w|\d|-]+.html] 代表匹配java/后面的任意字符的html结尾的地址。
标题选择器:#content>h1,代表获取内容里ID为content,并找到下面的h1标签的内容为标题
内容选择器:#content,代表获取内容里ID为content的内容为内容
爬取的内容会保存到数据库中[具体表为page_info]。
如果需要更多的提取页面内容规则可以在[com.suyunyou.spider.plugins.page]包下写自己的插件,在SpiderUtil.addSiteFetcherPage(...)方法中添加使用。
如果需要更多的提取内容的链接的规则可以在[com.suyunyou.spider.plugins.link]包下写自己的插件。

提取微信公众号信息,通过LinkWeixinPlugin插件提炼链接

初始程序

初始程序,先执行创建数据库的脚本[doc/db.sql],然后执行初始数据的脚本[doc/init.sql] 数据库链接在[application.properties]文件中修改

登录地址:http://127.0.0.1:6080/index.jsp
账户:admin
密码:admin

爬取网站的维护页面 爬取网站管理

网站爬取页面规则管理的页面 网站爬取页面规则管理

爬取到的链接管理的页面 爬取到的链接管理

爬取的内容管理的页面 爬取的内容管理

已完成

开发链接管理功能,要可以批量删除链接等
将文章和域名关联起来
开发提取网站的内容列表预览
开发网页管理,添加提取的网站
定义提取内容的链接的规则
定义提取内容的格式
根据提供的链接分析改链接下面的字连接,同时下载对应的页面到内存中。

待完成

分布式需要处理的地方
	重置爬虫
	爬取网页的地址的分配

空文件

简介

暂无描述 展开 收起
Java
取消

发行版

暂无发行版

贡献者

全部

近期动态

加载更多
不能加载更多了
Java
1
https://gitee.com/redlevers/suyunyou-spider.git
git@gitee.com:redlevers/suyunyou-spider.git
redlevers
suyunyou-spider
syy-spider
feature/local180302

搜索帮助