代码拉取完成,页面将自动刷新
Html 页面内容中属性的自动解析工具,自动提取文章标题、正文、作者、发布时间、来源、原始来源
// 提取正文
String txt = HtmLP.getContent(html).getTxt(); // 正文不带标签
String content = HtmLP.getContent(html).getContent(); // 正文带标签
// 提取标题
String title = HtmLP.getTitle(html, metaTitle);
// 提取作者
String author = HtmLP.getAuthor(txt);
// 提取时间
String time = HtmLP.getTime(html);
基于行块统计的正文提取,认为:当页面中内容过滤掉 html 标签后,剩余的内容逐行统计字数,指定行数后的数量当大于阈值时,则认为是正文的开始,当再次小于指定阈值时,认为正文已结束
取正文中与 title 标签内容最相似的内容为标题
基于正则的数据提取,同时来源认为有两种,一种是设定当前网站为文章来源,一种是当前网站会转发来自其它媒体的文章,此时其它媒体则做为一种来源,根据实际需求自行选择提取方法
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。
1. 开源生态
2. 协作、人、软件
3. 评估模型