介绍

index.js - 使用 Puppeteer 爬取 bilibili一个页面的63448评论条数据。
start.py - Python 脚本用于生成词云图

环境

node

运行

使用 node index.js 运行爬虫脚本

let h = 50;//内容循环次数 定义你要循环的次数,用于页面数据更新,值越大获取的数据越多,取决于当前页面数据量

// 填写你要爬的网络地址
 await page.goto(
    "https://www.bilibili.com/video/BV1ym42177Hy/?spm_id_from=333.1007.top_right_bar_window_dynamic.content.click&vd_source=3fb379bdd5d3e5bd63fada6189f6d4b6"
  );

下面是填写自己寻找到的标签
"div > div > div > div.reply-warp > div.reply-list > div > div.root-reply-container > div.content-warp > div.root-reply > span > span"

数据将保存在 data.json 文件下

生成词云图

使用 pip install WordCloud -i https://mirrors.aliyun.com/pypi/simple/ 安装依赖
运行start.py
生成的词云图将保存为 word-cloud.png

baihaowen / js可视爬取

介绍

环境

运行

生成词云图

简介

发行版

贡献者

近期动态

baihaowen / js可视爬取 .gitee-modal { width: 500px !important; }

介绍

环境

运行

生成词云图

简介

发行版

贡献者

近期动态

搜索帮助

baihaowen / js可视爬取