您的位置:首页 > 娱乐 > 八卦 > 中小型网站建设_蛋糕店网站设计模板_企业网站设计规范_公司网站模板设计

中小型网站建设_蛋糕店网站设计模板_企业网站设计规范_公司网站模板设计

2025/3/11 2:13:49 来源:https://blog.csdn.net/weixin_46933702/article/details/146040018  浏览:    关键词:中小型网站建设_蛋糕店网站设计模板_企业网站设计规范_公司网站模板设计
中小型网站建设_蛋糕店网站设计模板_企业网站设计规范_公司网站模板设计

详细解析 LangChain 的 AsyncHtmlLoaderHtml2TextTransformer

在 LangChain 中,AsyncHtmlLoaderHtml2TextTransformer 是两个常用的 Web 数据处理工具,主要用于异步获取网页 HTML 内容将其转换为纯文本,方便后续的大模型(LLM)处理。下面我们详细介绍它们的功能、参数、实现原理示例


1. AsyncHtmlLoader - 异步加载 HTML 页面

功能

AsyncHtmlLoader 是 LangChain 提供的一个异步文档加载器,用于并行获取多个网页的 HTML 内容,比传统的同步请求方式(如 requests.get(url)速度更快

代码示例

from langchain_community.document_loaders import AsyncHtmlLoader# 需要爬取的网页链接
urls = ["https://www.espn.com", "https://lilianweng.github.io/posts/2023-06-23-agent/"]# 创建异步 HTML 加载器
loader = AsyncHtmlLoader(urls)# 加载 HTML 网页内容
docs = loader.load()

参数

参数说明默认值
web_path单个 URL 或 URL 列表必填
requests_per_second限制每秒请求数量,防止 IP 被封2
trust_env是否使用环境变量(如 http_proxy 代理)False

工作原理

  1. 利用异步请求(Async IO):通过 aiohttpasyncio 并行请求多个网页,提高加载速度。
  2. 批量请求:支持一次性请求多个网页,而不是逐个请求ÿ

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com