BeautifulSoup
是一个用于解析 HTML 和 XML 文档的 Python 库。它常与 requests
库一起使用,用于从网页中提取数据。
1.安装
使用 pip
进行安装:
pip install beautifulsoup4
基本用法
1.导入库:
需要导入 BeautifulSoup
类和 Request
方法(如果你打算从网络上获取 HTML)。
from bs4 import BeautifulSoup
import requests
2.获取网页内容:
使用 requests.get
方法获取你想要解析的网页的内容。
response = requests.get('https://www.baidu.com/')
html_content = response.text
3.创建 BeautifulSoup 对象:
soup = BeautifulSoup(html_content, 'lxml')
4.搜索元素:
使用 BeautifulSoup
对象的方法来搜索 HTML 中的元素。
elements = soup.find_all('tag_name')
使用 CSS 类名查找:
elements = soup.find_all(class_='class_name')
使用其他属性查找:
elements = soup.find_all(attrs={'attribute_name': 'attribute_value'})
5.提取数据: 从找到的元素中提取数据。
提取文本:
text = element.get_text()
提取标签:
tag = element.name
提取属性:
attribute_value = element['attribute_name']