代码拉取完成,页面将自动刷新
import html2text
import requests
import re
from bs4 import BeautifulSoup
class MarkDown:
def __init__(self, url):
resp = requests.get(url)
self.html = resp.content.decode(encoding='UTF-8')
print(self.html)
self.soup = BeautifulSoup(self.html, 'html.parser')
print(self.soup.title.string)
def to_file(self):
self.markdownText = html2text.html2text(self.html)
invalid_chars = '[\\\/:*?"<>|]'
replace_char = '-'
filename = re.sub(invalid_chars, replace_char, self.soup.title.string)
with open(f"{filename}.md", mode="wb") as file:
file.write(self.markdownText.encode(encoding='UTF-8'))
if __name__ == '__main__':
url = "https://semver.org/lang/zh-CN/"
md = MarkDown(url)
md.to_file()
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。