网络爬虫(Web crawler),也称为网页蜘蛛或网络机器人,是一种程序,用于自动抓取互联网上的数据。使用 Python 实现网络爬虫非常流行,因为 Python 有强大的库支持,如 requests
用于发送 HTTP 请求,BeautifulSoup
用于解析 HTML 文档,以及 Scrapy
作为完整的爬虫框架。
下面我将为你介绍一个简单的使用 Python 和这些库实现的网络爬虫示例。
第一步:安装所需库
首先,你需要安装一些 Python 库。如果你还没有安装,可以使用 pip 安装:
pip install requests beautifulsoup4
第二步:编写爬虫代码
这里是一个简单的 Python 程序,它会从一个网站抓取 HTML 内容,并从中提取特定的数据。
示例:从一个网站抓取标题
import requests
from bs4 import BeautifulSoupdef fetch_and_parse(url):# 发送 GET 请求response = requests.get(url)# 检查请求是否成功if response.status_code == 200:# 解析 HTML 文档soup = BeautifulSoup(response.text, 'html.parser')# 提取页面标题title = soup.find('title').textprint(f"Title: {title}")