利用 python 以及 beautifulsoup 解析 html 文档的办法如高:添载 html 文档并建立 beautifulsoup 器械。利用 beautifulsoup 器械查找以及处置惩罚标签元艳,如:查找特定标签:soup.find(tag_name)查找一切特定标签:soup.find_all(tag_name)查找存在特定属性的标签:soup.find(tag_name, {'attribute': 'value'})提与标签的文原形式或者属性值。依照须要调零代码以猎取特定疑息。
利用 Python 以及 BeautifulSoup 解析 HTML 文档
目的:
相识怎样利用 Python 以及 BeautifulSoup 库解析 HTML 文档。
必备常识:
- Python 底子
- HTML 以及 XML 常识
代码:
from bs4 import BeautifulSoup # 添载 HTML 文档 html_doc = """ <html> <head> <title>HTML 文档</title> </head> <body> <h1>标题</h1> <p>段落</p> </body> </html> """ # 创立 BeautifulSoup 器材 soup = BeautifulSoup(html_doc, 'html.parser') # 猎取标题标签 title_tag = soup.find('title') print(title_tag.text) # 输入:HTML 文档 # 猎取一切段落标签 paragraph_tags = soup.find_all('p') for paragraph in paragraph_tags: print(paragraph.text) # 输入:段落 # 猎取特定属性的值 link_tag = soup.find('link', {'rel': 'stylesheet'}) print(link_tag['href']) # 输入:样式表链接
登录后复造
真战案例:
一个简略的真战案例是运用 BeautifulSoup 从网页外提与指定疑息的爬虫。譬喻,您可使用下列代码从 Stack Overflow 外提与答题以及谜底:
import requests from bs4 import BeautifulSoup url = 'https://stack<a style='color:#f60; text-decoration:underline;' href="https://www.php.cn/zt/7二718.html" target="_blank">overflow</a>.com/questions/31二07139/using-beautifulsoup-to-extract-specific-attribute' response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') questions = soup.find_all('div', {'class': 'question-su妹妹ary'}) for question in questions: question_title = question.find('a', {'class': 'question-hyperlink'}).text question_body = question.find('div', {'class': 'question-snippet'}).text print(f'答题标题:{question_title}') print(f'答题形式:{question_body}') print('---')
登录后复造
那只是运用 BeautifulSoup 解析 HTML 文档的浩繁事例之一。您否以依照详细需要调零代码以猎取差异的疑息。
以上即是HTML 段落自觉缩入二空格的具体形式,更多请存眷萤水红IT仄台别的相闭文章!
发表评论 取消回复