一.在线把声音文件转换为文字方法
讯飞星火AI大模型支持直接把音频文件转换为文字,官网:https://xinghuo.xfyun.cn/
二.本地部署模型:FunASR
1.介绍
FunASR 是由阿里巴巴达摩院开发的开源语音识别工具包。提供可便捷本地或者云端服务器部署的离线文件转写服务,内核为FunASR已开源runtime-SDK。 集成了达摩院语音实验室在Modelscope社区开源的语音端点检测(VAD)、Paraformer-large语音识别(ASR)、标点恢复(PUNC) 等相关能力,拥有完整的语音识别链路,可以将几十个小时的音频或视频识别成带标点的文字,而且支持上百路请求同时进行转写。
github地址:https://github.com/modelscope/FunASR
2.win10下安装
pip install funasr
pip install torch torchvision torchaudio //依赖torch 库
3.测试代码:
from funasr import AutoModel
from funasr.utils.postprocess_utils import rich_transcription_postprocess
model_dir = "iic/SenseVoiceSmall"
model = AutoModel(
model=model_dir,
vad_model="fsmn-vad",
vad_kwargs={"max_single_segment_time": 30000},
device="cuda:0",
)
# en
res = model.generate(
input=f"D:\test1.wav",
cache={},
language="auto", # "zn", "en", "yue", "ja", "ko", "nospeech"
use_itn=True,
batch_size_s=60,
merge_vad=True, #
merge_length_s=15,
)
text = rich_transcription_postprocess(res[0]["text"])
print(text)
三.其他模型
1.openai的whisper
github地址: https://github.com/openai/whisper
特点:音频转换输出的中文没有标点符号,支持的语言种类多,但对中文据说不如阿里的FunASR。