您的位置:首页 > 汽车 > 新车 > 哪里有建站代理加盟_今日新闻 最新消息 大事_百度推广公司_seo外包大型公司

哪里有建站代理加盟_今日新闻 最新消息 大事_百度推广公司_seo外包大型公司

2025/1/22 19:13:09 来源:https://blog.csdn.net/qq_35328355/article/details/144177189  浏览:    关键词:哪里有建站代理加盟_今日新闻 最新消息 大事_百度推广公司_seo外包大型公司
哪里有建站代理加盟_今日新闻 最新消息 大事_百度推广公司_seo外包大型公司

用Transformers和FastAPI快速搭建后端算法api

如果你对自然语言处理 (NLP, Natural Language Processing) 感兴趣,想要了解ChatGPT是怎么来的,想要搭建自己的聊天机器人,想要做分类、翻译、摘要等各种NLP任务,Huggingface的Transformers库是你不能错过的选择。在Transformers的帮助下,许多任务只需几行代码便能轻松解决。

预训练模型

在Transformer结构中,存在许多的 W W W权重矩阵,训练后具有大量的信息,并且可以保存为文件。如果有大佬训练了效果特别好的模型,他能不能慷慨分享出来,给我们用?幸运的是,真的存在这样一群具有无私开源精神的人,为推动科技发展造福全人类而不懈努力,这便是Huggingface社区的贡献者们。

让我们进入Huggingface的模型库>点击直达一探究竟。

印入眼帘的便是大量的预训练模型,包括著名的BERT、GPT2等,常可以看到以下字眼:

  • large/base/small/tiny/mini:指模型大小;
  • cased/uncased:cased指区分大小写,”Hi”和”hi”是两个不同的词;uncased指预先对文本做lower-case,”Hi”和”hi”都会转成”hi”,于是词表只有小写的单词;
  • zh/fr/en:指语言,中文/法语/英语等;
  • wwm:Whole Word Masking,对全词进行Mask。

在模型首页有三个选项卡Model Card Files Community,作用如下:

  • Model Card:介绍这个模型,对应Files里的README.md。一般都会提供How to use,能用Transformers的几行代码把此模型跑起来。有些模型的右侧会提供Hosted inference API,直接在线尝试使用这个模型;底下还有Spaces,指使用了这些模型的空间,设计了界面,不过俩蛮多时候都不好使。
  • Files:保存了模型的各个文件。点击中间的下载图标即可下载,我试了右键另存为不太行。用PyTorch必要下载:
    1. pytorch_model.bin,模型的参数文件,最大(其他大文件基本都是针对其他类深度学习框架,如TensorFlow的tf_model.h5,不用下载);
    2. config.json,保存模型结构、参数等信息;
    3. vocab.txt(.json),词表文件;
    4. 其他小文件不是每个模型都有,但也请一并下载,可能包括特殊分词和模型结构的.py文件,不可或缺。
  • Community:提供模型的讨论区,结合了GitHub的issue和PR,对模型的问题或改进可以提在这。

开箱即用的pipeline

在Model Card中常见

from transformers import pipeline

使用pipeline,首先需要安装transformers,在pytorch环境配置好的情况下,只需:

pip install transformers

pipeline封装了预训练模型和对应的前处理和后处理环节,可以直接进行包括但不限于以下任务:

任务描述模态Pipeline使用方式
Text classification给一段文本赋上标签NLPpipeline(task=“sentiment-analysis”)
Text generation生成文本NLPpipeline(task=“text-generation”)
Summarization生成一段文本或文档的摘要NLPpipeline(task=“summarization”)
Image classification给图片赋上标签Computer visionpipeline(task=“image-classification”)
Image segmentation给图片的每个像素赋上标签Computer visionpipeline(task=“image-segmentation”)
Object detection预测图像中的对象边界和类别Computer visionpipeline(task=“object-detection”)
Audio classification给音频赋上标签Audiopipeline(task=“audio-classification”)
Automatic speech recognition语音转文本Audiopipeline(task=“automatic-speech-recognition”)
Visual question answering给定图片和问题,给出回答Multimodalpipeline(task=“vqa”)
Document question answering给定带有文档(例如表格)的图片和问题,给出回答Multimodalpipeline(task=“document-question-answering”)
Image captioning给图片起个标题Multimodalpipeline(task=“image-to-text”)

Pipeline使用案例

例如情感分析,我们只需要输入文本,就可以得到其情感标签(积极/消极)以及对应的概率:

from transformers import pipelineclassifier = pipeline("sentiment-analysis")
result = classifier("I've been waiting for a HuggingFace course my whole life.")
print(result)

pipeline会自动完成以下三个步骤:

  1. 将文本预处理为模型的输入格式;
  2. 将预处理好的文本送入模型;
  3. 对模型的预测值进行后处理,输出想要的结果。

pipeline会自动选择合适的预训练模型来完成任务。例如对于情感分析,默认就会选择微调好的英文情感模型 distilbert-base-uncased-finetuned-sst-2-english

要想指定模型,可以加入model参数,如

generator = pipeline("text-generation", model="distilgpt2")

Transformers 库在首次加载时某模型时,会自动缓存模型到~/.cache/huggingface,再次使用时,直接调用缓存好的模型。

如果你也不喜欢这种被人瞒着的感觉,最好下载模型,在本地调用。比如下载好了bert-base-chinese到当前目录,再运行:

classifier = pipeline('text-classification', model='./bert-base-chinese')

这时会报一个warning,说权重没有初始化什么的,这是因为bert本身没有对文本分类任务做训练,所以没有关于分类的权重,需要自己训练,这个会在后面的章节进行学习。

FastAPI搭建后端算法接口

FastAPI是最快的基于 Python 的 Web 框架之一。相比于Flask,有以下特点:

  • FastAPI使用 Pydantic 进行数据验证;
  • Uvicorn提供异步请求能力。

先安装:

pip install fastapi uvicorn

以翻译任务为例,首先新建一个api.py文件,用transformers的pipeline搭建模型:

from transformers import AutoModelForSeq2SeqLM, AutoTokenizer, pipelineTRANS_MODEL_PATH = 'liam168/trans-opus-mt-en-zh'
def trans(text):model = AutoModelForSeq2SeqLM.from_pretrained(TRANS_MODEL_PATH)tokenizer = AutoTokenizer.from_pretrained(TRANS_MODEL_PATH)translation = pipeline("translation_en_to_zh", model=model, tokenizer=tokenizer)return translation(text, max_length=400)

用pydantic定义数据格式,翻译任务就只需要接收模型名称输入文本

from pydantic import BaseModelclass Data(BaseModel):model_name: strinput: str

FastAPI构建服务:

from fastapi import FastAPIapp = FastAPI()
@app.post('/api/trans')
def translate(data_zh: Data):res = {"code": 200,"message": "OK"}msg = data_zh.inputif data_zh.model_name == 'opus':trans_res = trans(msg)res.update({data_zh.model_name: trans_res[0]['translation_text']})return res

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com