8 Star 42 Fork 15

kanasimi / work_crawler

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
README.cmn-Hans-CN.md 14.23 KB
一键复制 编辑 原始数据 按行查看 历史
kanasimi 提交于 2020-10-15 07:03 . fix messages / i18n

CeJS 网路小说漫画下载工具

  • [CN] 批量下载小说 (→ epub)、漫画网站作品的网络爬虫。

快速浏览

多语言支援

欢迎一同翻译使用者执行界面!

语言 支援状况
繁體中文 ✔️
简体中文 ✔️
English ✔️
Português brasileiro 🚧
日本語 🚧
한국어 🚧

作业系统支援

作业系统平台 支援状况
Windows ✔️
macOS ✔️
UNIX, Linux ✔️

支援界面

界面 支援状况
GUI 图形 ✔️
CLI 命令行 ✔️
API 应用程式界面 ✔️

Features 特点

Supported sites 已完成之网站工具

安装

若是想要使用系统安装的方法,或者您的系统并未提供命令行界面,您可以 直接下载📦安装包GitHub release,并且安装 7-Zip 18.01 以上的版本。惟 安装包不含最新的功能,有些网站下载起来会出问题。安装包现在落后最新测试版修正次数:Github commits (since latest release)。欲采用最新版本,或研究开发、想要使用命令行界面作批次处理,请采用下列步骤。

懒人安装法

为了想赶快尝鲜的您~

  1. 先安装 node.js7-Zip 18.01 以上的版本。请将程式安装于预设路径下,否则可能出现错误!(例如 Windows 系统下,安装 7-Zip 于 C:\Program Files\)已经安装过的可以跳过。Node.js 用以执行本工具。7-Zip 在更新本工具,或者打包漫画章节,以及制作电子书时使用。
  2. 下载并储存本工具安装档 work_crawler.updater.js(按右键另存新档)。本工具安装档 预设会将所有组件放在 work_crawler-master 目录下
  3. 若在中国大陆使用本工具,您可能需要更改预设 npm registry 至淘宝 npm 镜像,以加快下载速度:
    (单击本处可获得更详细的说明)
    • 请在命令列界面下执行下列指令,将会修改 .npmrc 设定档:可参考 npm 淘宝镜像配置

      npm config set registry https://registry.npm.taobao.org
      npm config set disturl https://npm.taobao.org/dist
      npm config set electron_mirror https://npm.taobao.org/mirrors/electron/

      附注:恢复预设设定请执行

      npm config delete registry
      npm config delete disturl
      npm config delete electron_mirror
  1. 在命令行界面下以 Node.js 执行安装档 `work_crawler.updater.js`。(本安装档不能直接点击两下执行。点击本行可获得更详细的说明。)
    1. 进入命令行界面

      • Windows 10 下,请按下⊞ Windows键 + X → 选择 命令提示字元。(如下图的示范)
      • Windows 7 下打开命令行界面,请从 开始 → 所有程式 → 附属应用程式 → 选择 命令提示字元

      Windows 10 下,进入命令行界面

    2. 进到本工具安装档 work_crawler.updater.js 所在的目录

      • 若是您视窗的 背景为蓝色,表示您使用的可能是 PowerShell,您应该使用这种形式的指令来切换目录:cd "本工具安装档所在的目录"
      • 若是您视窗的 背景为黑色,表示您使用的可能是 Command Prompt 命令提示字元,您应该使用这种形式的指令来切换目录:cd/d "本工具安装档所在的目录"cd/d 表示「同时变更工作磁碟机及其工作目录」的意思)。
    3. 执行命令以下载最新版本组件(本安装档必须以 node 执行, 不能直接点击两下执行。):

      node work_crawler.updater.js
    4. 执行完毕后,除了 work_crawler-master 这个目录,还会出现一些附属档案。这些档案是帮助更新用的,就算删除也不会影响程式运行或更新。

  1. 然后就能开始试用啰。

    下载 CeJS 程式库后本工具安装的目录看起来的样子:

    下载 CeJS 程式库后本工具安装的目录看起来的样子

    以下是在linux下直接操作上述作业时的指令,Windows用户可以跳过,直接开始试用

    # sample commands to extract work_crawler + cejs
    curl -O https://raw.githubusercontent.com/kanasimi/work_crawler/master/work_crawler.updater.js
    # wget https://raw.githubusercontent.com/kanasimi/work_crawler/master/work_crawler.updater.js
    node work_crawler.updater.js
  1. 若是您将 CeJS 放置在其他目录底下,您可以从 _repository_path_list.txt 这个档案来设定放置的路径。

  2. 您可设定 work_crawler.configuration.js 以指定 所有网站采用之预设主要下载目录,所下载的作品档案预设会放置到此主要目录之工具档名称底下。简便的方法是:

    1. work_crawler.default_configuration.js 改名成 work_crawler.configuration.js。只要在 work_crawler.configuration.js 档案里面,已将所有选项设定好;那么是否有 work_crawler.default_configuration.js 并不影响程式运作,请不用担心。
    2. 直接用文字编辑器打开 work_crawler.configuration.js,找到 global.data_directory = ''; 这一段,把引号中改成您要的 所有网站采用之预设主要下载目录;例如:
      global.data_directory = 'D:\\web_works\\';
      请记得在引号中,目录分隔号必须输入两次! 这不会影响到您之前曾手动改变过的标的目录。
  3. 每次要更新到最新版本时,只要进到工具安装档所在目录,重新执行一次本工具安装档即可。

    node work_crawler.updater.js

    由于本工具会 cache 作品资讯,更新幅度较大的时候,新程式可能无法读取这些旧格式的 cache,会产生错误;此时您需要删除下载目录中所有的 cache,重新下载作品。这些 cache 包括 search.json, servers.json 以及作品目录下面,以作品名称为名的 .json 档案。

Legacy installation 一般正常安装方法

  1. Please see Node.js usage section at CeJS for detail.
  2. Setup _repository_path_list.txt if necessary.
  3. 最后设定好设定档 work_crawler.configuration.js (see work_crawler.default_configuration.js)。例如指定 global.data_directory

Setup GUI 设定视窗型态界面

若是您在作研究开发时,希望使用图形使用者界面,那么您还需要安装 Electron。若是您采用懒人安装法,应该已经安装过 Electron,可以直接采用图形使用者界面。

  1. 请在命令行界面下,进到本工具安装的目录,执行命令以安装 Electron 程式库:

    npm i -D electron@latest
  2. 在本工具安装的目录下,执行 start_gui_electron.batstart_gui_electron.sh

    视窗型态界面

    视窗型态界面支援不同语系: 支援不同语系

    有许多可调整的下载选项: 有许多可调整的下载选项

    可选用暗色系主题: 暗色系主题

    能一键搜寻各网站与下载作品: 搜寻名称用于跨网站。仅能搜寻作品名称,无法搜寻作品id。假如您已知作品id,可以直接在最爱作品清单输入id,用不着搜寻。 一键搜寻各网站与下载作品

Execution 执行

若是您希望使用图形使用者界面,请执行 work_crawler-master 目录下面的 start_gui_electron.batstart_gui_electron.sh

所有操作都必须进到工具档所在的目录,在命令行界面下执行。

  1. 确认要下载的网站名与作品名。之后在命令行界面下,执行:(请在作品的名称外面加上引号)

    node 工具档名.js "作品名" [option=true] [option=value]
    node 工具档名.js "l=作品列表档案名" [option=true] [option=value]

    e.g.,

    cd comic.cmn-Hans-CN && node qq.js "狐妖小红娘" skip_error=true
    cd novel.cmn-Hans-CN && node qidian free && echo "下载 起点中文网限免作品"
    cd novel.cmn-Hans-CN && node 23us "斗罗大陆Ⅲ龙王传说" proxy=localhost:8080
    cd comic.cmn-Hans-CN && node 2manhua "大主宰" recheck=true
    cd comic.cmn-Hans-CN && node ikanman "l=ikanman.txt" recheck=true
    cd novel.cmn-Hans-CN && node 630book "267" && echo "via id"
    cd novel.ja-JP       && node yomou "転生したらスライムだった件"

    命令行界面下执行命令

  2. 下载的档案将放在设定档 work_crawler.configuration.jsglobal.data_directory 所设定的目录下。若采懒人安装法,则预设放在解压缩后工具档所在的目录下。

  3. 本工具会循序下载每个章节,对于漫画基本上每个章节的图片会并行下载。不可并行下载同一个网站的同一个作品,否则会出现冲突。若是想要并行下载不同网站或是不同的作品,那么您就需要再开一个命令行界面来执行工具档。

  4. 若是下载出错,重新执行即可接续下载

Workflow 工作流程

Uninstallation 移除

FAQ 常见问题集

Notes 附注

Purpose 公开目的

Announce 声明

Contact 联络我们

Contact us at GitHub.

logo

JavaScript
1
https://gitee.com/kanasimi/work_crawler.git
git@gitee.com:kanasimi/work_crawler.git
kanasimi
work_crawler
work_crawler
master

搜索帮助