40 Star 140 Fork 42

烈冰 / go_sexy

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
克隆/下载
贡献代码
同步代码
取消
提示: 由于 Git 不支持空文件夾,创建文件夹后会生成空的 .keep 文件
Loading...
README
MIT

go_sexy

Go语言实现妹子图爬虫

纯粹是一个练手的项目,里面用到很多Go的特性,例如goroutine、channel、自定义类型、错误处理等等

放上来给大家参考一下,我也是初学golang,有哪些地方写得不好请指正

更新说明

  • 2015年10月20日 增加了配置文件的功能,把要抓取的网站地址和相关的正则表达式放在json配置文件里
  • 2017年11月28日 合并了 @hanshijiex 提交的代码,修复一下问题:1、多协程竞态读写map导致panic 2、迁移到妹子图的新网址www.mmjpg.com 3、模拟header,骗过防抓取导致抓到错误图片
  • 2017年11月29日 1、支持SOCKS5代理服务器;2、http客户端只创建一次
{
	"root":"xxxxxx.com",
	"proxy":{
		"server":"127.0.0.1:1080", /*SOCKS5代理服务器,如果设置成空字符串则不使用代理 127.0.0.1:1080*/
		"username":"",
		"password":""
	},
	"header":{/*http请求头*/
		"Host":"xxxxxx.com",
		"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36",
		"Referer": "http://xxxxxx.com/zaqizaba/2407.html"
	},
	"charset":"gbk", /*可选值utf-8或gbk*/
	"regex":{
		"page":[], /*正则表达式,只有符合的页面才会被抓取并解析,空白表示所有页面都抓取*/
		"imgInPage":["\S+\d+\.html"], /*存放正则,指定图片存在于哪些页面*/
		"href":[ /*匹配页面上的链接*/
			{
				"query":"a", /*存放链接的dom选择器*/
				"attr":"href"
			}
		],
		"image":[ /*匹配页面上的图片地址*/
			{
				"query":"article.article-content img", /*匹配图片的dom选择器*/
				"attr":"src",
				"folder":"none" /*存放图片的文件夹,可选值url,title,none,正则表达式,文件夹名称*/
			}
		]
	}
}

配置文件使用json格式:

  • root:字符串,要抓取的站点地址
  • header:HTTP请求头
  • charset:指定页面的编码,可选值utf-8或gbk
  • proxy.server:代理服务器地址和端口,例如:127.0.0.1:1080,只支持SOCKS5代理服务器,空字符串表示不使用代理
  • proxy.username:代理服务器用户名,如果不需要登录则设置空字符串
  • proxy.password:代理服务器密码,如果不需要登录则设置空字符串
  • regex.image:数组,用于匹配页面上的图片地址
  • regex.image.query:字符串,匹配图片的dom选择器
  • regex.image.attr:字符串,指定存储图片地址的属性名称
  • regex.image.folder:字符串,可输入url,title,none或正则表达式,其中正则表达式用于匹配页面上的内容
    • url:使用图片所在页面的url的name(源码为path.Base(url))做文件夹名称
    • title:使用页面的title
    • none:不建文件夹,所有图片都放在一起
    • 正则表达式:可以匹配页面上的内容来生成文件夹名称
  • regex.page:数组,存放正则表达式,只有符合正则表达式的页面才会被抓取并解析,留空表示所有页面都抓取并解析
  • regex.imgInPage:数组,存放正则表达式,用于指定图片存在于哪些页面里
  • regex.href:数组,用于匹配页面上的超链接
  • regex.href.query:字符串,存放链接的dom选择器
  • regex.href.attr:字符串,指定存储链接地址的属性名称

编译说明

实现原理

实现原理

The MIT License (MIT) Copyright (c) 2015 烈冰 Permission is hereby granted, free of charge, to any person obtaining a copy of this software and associated documentation files (the "Software"), to deal in the Software without restriction, including without limitation the rights to use, copy, modify, merge, publish, distribute, sublicense, and/or sell copies of the Software, and to permit persons to whom the Software is furnished to do so, subject to the following conditions: The above copyright notice and this permission notice shall be included in all copies or substantial portions of the Software. THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE.

简介

Go语言版本妹子图抓取爬虫,项目里用到很多go的语言特性。正所谓寄学习于娱乐,欣赏妹子的同时还可以学到东西,欢迎大家评鉴 展开 收起
Go 等 2 种语言
MIT
取消

发行版

暂无发行版

贡献者

全部

近期动态

加载更多
不能加载更多了
Go
1
https://gitee.com/xpan-lu/go_sexy.git
git@gitee.com:xpan-lu/go_sexy.git
xpan-lu
go_sexy
go_sexy
master

搜索帮助