自然语言处理基础:
自然语言处理(Natural Language Processing,NLP) 是计算机科学与人工智能领域中的一个极具挑战性和应用前景的研究方向。
它旨在使计算机能够理解、生成和处理人类的自然语言,从而实现人机高效交互。
NLP技术在搜索引擎、机器翻译、智能客服、文本挖掘、语音助手等众多领域得到了广泛应用,极大的改变了人们的生活和工作方式。
NLP常见任务:
文本分类 是将文本文档自动分配到一个或多个预定义类别的任务,是NLP中的基础任务之一。
序列标注是为文本中的每个单元(通常是词或字符)分配一个标签的任务,考虑序列中元素之间的依赖关系。
-
文本分类的输入输出 :为整个文本分配一个或多个类别标签
-
序列标注的输入输出 :输出是一个与输入等长的标签序列
词向量:
词向量(Word Embedding) 是NLP中的一种重要技术,用于将词汇映射到低维连续向量空间,使得语义和语法相似的词在向量空间中距离相近
-
传统方法(One-Hot编码)的缺点:
- 高维稀疏(词汇表多大,向量就多大)
- 无法表达词与词之间的语义关系(如"猫"和"狗"都是动物,但One-Hot编码无法体现)
-
词向量的优势:
- 低维稠密(如50维、100维、300维)
- 语义相近的词在向量空间距离相近
- 可以计算词之间的相似度(如余弦相似度)