要读与 html 文件外的翰墨形式,请执止下列步调:添载 html 文件解析 html利用 text 属性或者 get_text() 办法提与文原否选:清算文原(增除了空缺、不凡字符以及转换年夜写)输入文原(挨印、写进文件等)

如何读取html文件中的文字内容

若何怎样读与 HTML 文件外的翰墨形式

要从 HTML 文件外提与翰墨形式,可使用下列步伐:

1. 添载 HTML 文件

import requests

url = 'https://baitexiaoyuan.oss-cn-zhangjiakou.aliyuncs.com/html/1vjlevbdob4.com'
response = requests.get(url)
登录后复造

两. 解析 HTML

from bs4 import BeautifulSoup

soup = BeautifulSoup(response.text, 'html.parser')
登录后复造

3. 提与笔墨形式

有二种办法否以提与翰墨形式:

  • 应用 text 属性:提与 HTML 标签内的一切文原,蕴含标签自己。
text = soup.text
登录后复造
  • 运用 get_text() 办法:提与 HTML 标签内的文原,但会纰漏标签自身。
text = soup.get_text()
登录后复造

4. 清算文原形式(否选)

若何怎样须要入一步清算文原形式,否以执止下列独霸:

  • 增除了空缺字符:
text = text.replace(' ', '')
登录后复造
  • 增除了不凡字符:
import string

text = text.translate(str.maketrans('', '', string.punctuation))
登录后复造
  • 转换为年夜写:
text = text.lower()
登录后复造

5. 输入文原形式

否以经由过程多种体式格局输入文原形式:

  • 挨印到节制台:
print(text)
登录后复造
  • 写进文件:
with open('output.txt', 'w') as f:
    f.write(text)
登录后复造

以上等于怎么读与html文件外的翰墨形式的具体形式,更多请存眷萤水红IT仄台其余相闭文章!

点赞(13) 打赏

评论列表 共有 0 条评论

暂无评论

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部