您的位置:首页 > 财经 > 产业 > 发布视频的平台大全_宝安中心地铁站时间表_北京seo全网营销_镇江网站seo

发布视频的平台大全_宝安中心地铁站时间表_北京seo全网营销_镇江网站seo

2025/1/23 15:01:41 来源:https://blog.csdn.net/u013565133/article/details/145000771  浏览:    关键词:发布视频的平台大全_宝安中心地铁站时间表_北京seo全网营销_镇江网站seo
发布视频的平台大全_宝安中心地铁站时间表_北京seo全网营销_镇江网站seo

实现从一个 CSV 文件加载数据,向一个向量数据库chromadb添加数据,进行查询操作,并通过语言模型(LLM)回答用户的问题。以下是详细的代码逻辑:


1. 导入和配置依赖项

import os
from pyprojroot import here
import pandas as pd
import chromadb
import warnings
warnings.filterwarnings("ignore")
from dotenv import load_dotenv
  • 功能:导入必要的库并设置环境。
    • pyprojroot: 用于定位项目根目录。
    • pandas: 数据处理。
    • chromadb: 向量数据库操作。
    • dotenv: 用于加载 .env 文件中的环境变量。
print(load_dotenv())
  • 功能:加载环境变量文件(.env)。

2. 配置语言模型(LLM)

from langchain_openai import ChatOpenAIllm = ChatOpenAI(openai_api_base=os.getenv("OPENAI_API_BASE"),openai_api_key=os.getenv("OPENAI_API_KEY"),temperature=0
)
  • 功能:配置 OpenAI 的 ChatOpenAI 模型实例。
    • openai_api_baseopenai_api_key:从环境变量加载 OpenAI 的 API 地址和密钥。
    • temperature=0: 模型回答的随机性设为最低(回答更确定)。

3. 初始化 Chroma 向量数据库客户端

chroma_client = chromadb.PersistentClient(path=str(here("data/chroma")))
  • 功能:初始化一个 Chroma 的持久化客户端,存储路径为 data/chroma

4. 检查集合是否存在

existing_collections = chroma_client.list_collections()
existing_collection_names = [collection.name for collection in existing_collections]if collection_name in existing_collection_names:collection = chroma_client.get_collection(name=collection_name)print(f"Retrieved existing collection: {collection_name}")
else:collection = chroma_client.create_collection(name=collection_name)print(f"Created new collection: {collection_name}")
  • 功能:检查集合是否已经存在。
    • 如果集合存在,获取集合;否则,创建新的集合。

5. 加载 CSV 数据

file_dir = here("data/for_upload/titanic_small.csv")
df = pd.read_csv(file_dir, nrows=5)
  • 功能:读取 titanic_small.csv 文件的前 5 行,存入 df

6. 初始化嵌入模型

from langchain.embeddings import OpenAIEmbeddings
OpenAIEmbeddings = OpenAIEmbeddings()
  • 功能:初始化 OpenAI 的嵌入模型实例,用于生成向量表示。

7. 处理 CSV 数据并生成嵌入

docs = []
metadatas = []
ids = []
embeddings = []for index, row in df.iterrows():output_str = ""for col in df.columns:output_str += f"{col}: {row[col]},\n"response = OpenAIEmbeddings.embed_documents(output_str)[0]embeddings.append(response)docs.append(output_str)metadatas.append({"source": "titanic_small"})ids.append(f"id{index}")
  • 功能
    • 遍历 df 的每一行,将数据拼接成字符串。
    • 使用 OpenAIEmbeddings 生成每行的嵌入向量,并保存到 embeddings 列表中。
    • 保存对应的文档、元数据和 ID。

注意:如果数据集很大,则分块处理。


8. 更新向量数据库

collection.add(documents=docs,metadatas=metadatas,embeddings=embeddings,ids=ids
)vectordb = chroma_client.get_collection(name="titanic_small")
vectordb.count()
  • 功能:将文档、元数据、嵌入和 ID 更新到向量数据库集合中,验证数据集是否存在。
    输出
    在这里插入图片描述

9. 查询向量数据库

query_texts = "what's the average age of survivors"
response = OpenAIEmbeddings.embed_documents(query_texts)[0]
query_embeddings = responseresults = vectordb.query(query_embeddings=query_embeddings,n_results=5
)
  • 功能
    • 将用户的问题嵌入为向量 query_embeddings
    • 在向量数据库中查询最相似的结果。

10. 使用 LLM 生成回答

chat = ChatOpenAI(openai_api_base=os.environ["OPENAI_API_BASE"],openai_api_key=os.environ["OPENAI_API_KEY"],temperature=0
)system_role = "You will recieve the user's question along with the search results of that question over a database. Give the user the proper answer."
prompt = f"User's question: {query_texts} \n\n Search results:\n {results}"messages = [{"role": "system", "content": system_role},{"role": "user", "content": prompt}
]response = chat(messages)
print(response.content)

在这里插入图片描述

  • 功能
    • 使用 ChatOpenAI 实例生成回答。
    • 构造对话内容,包括系统提示和用户问题。
    • 调用模型生成回答并打印。

总结流程

  1. 配置 OpenAI API 和向量数据库。
  2. 检查或创建集合。
  3. 从 CSV 加载数据并生成嵌入。
  4. 将嵌入数据存入向量数据库。
  5. 嵌入用户问题,查询向量数据库。
  6. 使用语言模型基于查询结果生成回答。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com