为了大家能够学习到真正在企业拿来即用的技术,结合15大企业级项目,带你熟悉算法工程师在工作中会接触到的数据打包、网络训练、测试等问题,一步步带大家了解和完成真真正正会在企业里面用到的实战案例,尽快进入AI学习领域。
1.文本分类相关任务
文本分类是一个常见的自然语言处理任务,能够完成对于各种文本的自动分类,常用于给文本打标签。做推荐等应用中,有大量算法可以用于文本分类任务,它们各自有自己的优缺点及适用场景,如何根据实际情况选取合适的算法进行分类是这阶段的学习重点。同时,文本分类涉及到许多自然语言处理领域的通用算法和知识,也会在这阶段详细讲解。
核心技术
- 基于TFIDF提取文本特征
- Bm25算法做分类
- Naive Bayes朴素贝叶斯分类器
- 随机森林分类器
- TextCnn模型做分类
- FastText模型做分类
- Bert模型做分类
应用场景
- 新闻领域分类
- 文本打标签
- 情感分类等
2.语言模型相关任务
语言模型是一种自然语言处理中的常用技术。它可以应用在输入法自动联想,语音识别,文本纠错,文字识别,语料筛选,模型预训练等方面。对于语言模型的理解可以很大程度加深对于nlp领域的认识。
核心技术
- Ngram语言模型
- RNN语言模型
- LSTM和GRU语言模型
- 基于Transformer的语言模型,bert,chatgpt等
应用场景
- 拼音输入法
- 文本纠错
- 语料筛选
3.序列标注相关任务
序列标注在nlp中有非常广泛的应用,主要用于命名实体识别,分词,句法分析,词性标注,标点标注,关系抽取等等方面。序列标注模型的效果,往往直接决定了下游任务的数据质量,也就间接的决定整体任务的最终效果。掌握序列标注模型的思路,可以解决许多nlp任务。
核心技术
- CRF模型
- LSTM + CRF模型
- 双向LSTM+CRF模型
- Viterbi解码方法
- Beam Search解码方法
应用场景
- 中文分词
- 词性标注
- 句法分析
- 命名实体识别等
4.文本匹配相关任务
文本匹配,也称语义相似度计算。常用于智能问答,聊天机器人,语音助手等应用。用于将接收到的用户意图,与预设好的标准意图进行匹配。文本匹配有大量相关研究和算法,这些算法有各自的优缺点及适用场景。在落地应用过程中,要基于对算法的理解来选取合适的方式进行实践。
核心技术
- 编辑距离
- Jaccard相似度
- Vector bow向量化
- Word vector + tfdf组合
- LSTM向量化
- Bert向量化
应用场景
- 智能客服
- 聊天机器人
- 语音助手
- 各种机器人
5.文本生成相关任务
文本生成相关算法可以用于机器翻译,自动生成摘要,自动编写新闻稿,智能写作,诗歌创作等场景。基于较为前沿的研究,文本生成甚至被认为可以处理所有的nlp任务,区别仅在于训练数据和训练方式。对于文本生成的研究一直是学术上的一个热点,在工业落地中,它有一些成功的场景,也面临一些挑战。
核心技术
- Seq2seq模型
- Encoder-decoder模型结构
- 基于rnn的seq2seq模型
- rnn + attention的seq2seq模型
- 基于transformer的seq2seq模型
- 自回归语言模型做文本生成
应用场景
- 机器翻译
- 智能写作
- 自动摘要
- 闲聊机器人
6.知识图谱相关任务
知识是自然语言理解不可或缺的一部分,没有特定的知识很多问题无法被理解,也无法被回答。知识图谱作为一种结构化数据存储手段,被大量应用在的智能问答和推荐系统内,用于提供事件或实体的相关信息或关联关系。知识图谱应用到了大量nlp相关技术,是自然语言处理中的重要应用。
核心技术
- 实体抽取
- 关系抽取
- 事件抽取
- Neo4j图数据库
- Dijkstra图最短路径查找算法
应用场景
- 知识图谱
- 智能问答
- 推荐系统
7.基于大模型的peft微调
大模型可以用来解决NLР领域的几乎所有问题,但是它有训练成本过高,速度较慢等局限性。PEFT指的是一系列高效参数微调技术,用于减少大模型训练的资源消耗,同时能达到较好的效果的方法。常见的PEFT微调方法包括Lora,p-tuning等。学习使用PEFT微调方法可以在有限的GPU资源上微调大模型,使其更加适合下游任务。
核心技术
- LLM基本原理和结构
- Lora微调原理及方法
- P-tuing微调原理及方法
应用场景
- 文本分类
- 命令实体识别
- 文本匹配