【自然语言处理】补充:基于向量空间的分类器
文章目录
- 【自然语言处理】补充:基于向量空间的分类器
- 1. 特征选择
- 2. 基于向量空间的分类方法
- 3. Rocchio
- 4. KNN
- 5. 线性分类器
1. 特征选择
- 特征选择
- 文本分类中,通常要将文本表示在一个高维空间下,每一维对应一个词项
- 许多维上对应是罕见词
- 罕见词可能会误导分类器
- 这些会误导分类器的罕见词被称为噪音特征
- 比如我们将对文本是否属于China类进行判断,假定某个罕见词项,比如Arachnocentric(心律不齐),没有任何关于China类的信息,但是在训练集中,该词的所有出现正好都在China这个类别中,这种情况下,我们就可能训练得到一个分类器,它认为Arachnocentric标志着类别China的出现
- 这种从训练集中的偶然现象学习得到的一般化结果称为过学习/过拟合Overfitting,特征选择能减少过学习可能,并提高分类器的精度
- 去掉这些噪音特征会同时提高文本分类的效率和效果
- 上述过程称为特征选择
- 基本的特征选择算法
- 不同的特征选择方法(主要基于其所使用特征效用指标来定义)
-
频率法(选择高频词项)
- 基于文档频率(DF)的选择方法:类别c中包含某个词项t的文档数目;Term的DF小于某个阈值去掉(太少,没有代表性)
- 基于文档集频率(类别c中词项t出现的总次数)
- 文档频率更适合于贝努利模型
- 文档集频率更适合于多项式模型
-
互信息/信息增益(选择具有最高互信息的那些词项)
- 互信息MI给出的是词项所包含的有关类别的信息及类别包含的有关词项的信息量
- 比如,如果词项的出现与否与类别独立(不同类别中包含和不包含词项的文档比例完全一样)
- 定义:
-