您的位置：首页 > 文旅 > 旅游 > python做简单爬虫的一些常用组件

python做简单爬虫的一些常用组件

2026/2/13 8:14:40 来源：https://blog.csdn.net/qq_36532060/article/details/140816991 浏览: 次关键词：python做简单爬虫的一些常用组件

文章目录

前言
request
json
bs4

前言

最近一直在做零散的一次性的爬虫工作，基本都是用python开发的，整理一下python做小规模爬虫开发常用的一些工具类

request

python最简单的发http请求的包，request.get和request.post就可以搞定绝大部分的抓取需求了，postman也提供直接把请求转成request代码的功能
在这里插入图片描述

import requestsurl = "https://www.who.int/publications/i/item/9789240087002"payload = {}
headers = {'Cookie': '_cfuvid=ckXDZTR8JfnelALNiB3ROmqSzyj13jtX.4WlS8zKHSw-1722239912266-0.0.1.1-604800000'
}response = requests.request("GET", url, headers=headers, data=payload)print(response.text)

json

类似java里的fastjson包，可以把map对象和json字符串相互转换，转换方法为json.loads(把json字符串转成map对象)和json.dumps(把map对象转成json字符串)

import json
dict_test={"key":"这是一个测试map"}
text_test=json.dumps(dict_test,ensure_ascii=False)
print(text_test)
dict_test2=json.loads(text_test)
print(dict_test2)

在这里插入图片描述
注意json.dumps如果要转换中文的话加一个ensure_ascii=False，要不然结果就会是这样

bs4

bs4是一个做html和xml树解析的包，使用如下

from bs4 import BeautifulSoup
html=BeautifulSoup(response.text)
html.find_all("div",class_="")

直接构建一个BeatifulSoup对象之后用find函数就可以定位到对应元素（组）

版权声明:

本网仅为发布的内容提供存储空间，不对发表、转载的内容提供任何形式的保证。凡本网注明“来源：XXX网络”的作品，均转载自其它媒体，著作权归作者所有，商业转载请联系作者获得授权，非商业转载请注明出处。

我们尊重并感谢每一位作者，均已注明文章来源和作者。如因作品内容、版权或其它问题，请及时与我们联系，联系邮箱：809451989@qq.com，投稿邮箱：809451989@qq.com

最新新闻

热搜词

uni-app——uni-app 小程序 input 在 scroll-view 中悬浮错位的原因与解决方案 2026年评价高的pvc管材管件公司推荐：沈阳ppr管材管件/辽宁pe管材管件/PVC排水管材管件/沈阳pvc管材管件/选择指南 - 优质品牌商家 2026年评价高的绿化草坪草皮公司推荐：绿化草坪基地/绿化草坪工程/绿化草坪批发/绿化草坪种植/绿化草坪苗木/辽阳绿化草坪/选择指南 - 优质品牌商家【Seedance 2.0像素级一致性算法内参】：20年图像算法专家首次公开3大核心收敛定理与工业级收敛边界验证数据 ChatGLM3-6B-128K部署避坑指南：从环境配置到成功运行赛博朋克风DAMO-YOLO：打造未来感智能安防系统

声明：本站所有新闻及新闻图片来源于其他网站，如有侵权，请及时联系我们！

客户服务 | 关于我们 | 版权声明

版权所有：

Copyright 2024 尧图网 All Rights Reserved.QQ:809451989