码云 Gitee IDE 全新上线——支持 Git 管理的轻量在线编码环境
0 Watch 17 Star 37 Fork 16

DGW / spiderTmallTradeInfoJavaMIT

加入码云
与超过 300 万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
为LSTM训练级 图像数据提取的同生项目,地址:https://gitee.com/dgwcode/Businessinfd。此项项目为爬虫项目,爬取天猫工商信息数据,智能化代替一切手动操作,效率高!
Loading...
README.md 1.68 KB

spiderTmallTradeInfo

项目介绍

为LSTM训练级 图像数据提取的同生项目,地址:https://gitee.com/dgwcode/Businessinfd。 此项项目为爬虫项目,爬去天猫工商信息数据,智能化代替一切手动操作,效率较高!

:tw-1f1e8-1f1f3: https://gitee.com/dgwcode

软件架构

使用框架 描述 框架 核心框架 htmlunit、jsoup、okhttp、tessract4.0 日志框架 log4j 主要特色 简约 / 极易上手

安装教程

  1. 导入eclipse 或者 idea
  2. 配置user.ini文件信息 用户名 密码
  3. 运行App

使用说明

  1. 可以导出为jar包,也可以选择直接在源码里运行App

  2. 弹出对话框,这里选择你需要的采集的数据连接地址的Excel文档(2003Excel)

Excel文件格式

  1. 如配置文件为手动,运行过程中右上角输入验证码即可下载,否则将会自动识别验证码,进行下载

验证码

4.当所有文件处理完成 (数据保存在天猫工商数据目录下) 数据

参与贡献

  1. Fork 本项目
  2. 新建 Feat_spider分支
  3. 提交代码
  4. 新建 Pull Request

待完善数据分类器

  1. 如果有兴趣,可以继续完成提高验证码识别准确率部分。

请我喝一杯茶

PyPcK1.png

项目点评 ( 2 )

你可以在登录后,发表评论

搜索帮助