您的位置:首页 > 科技 > IT业 > logo素材大图_西安平面设计培训学校哪个好_河南网站公司_福州网站seo优化公司

logo素材大图_西安平面设计培训学校哪个好_河南网站公司_福州网站seo优化公司

2024/10/10 9:17:29 来源:https://blog.csdn.net/Ausgelebt/article/details/142613309  浏览:    关键词:logo素材大图_西安平面设计培训学校哪个好_河南网站公司_福州网站seo优化公司
logo素材大图_西安平面设计培训学校哪个好_河南网站公司_福州网站seo优化公司

【自然语言处理】补充:基于向量空间的分类器

文章目录

  • 【自然语言处理】补充:基于向量空间的分类器
    • 1. 特征选择
    • 2. 基于向量空间的分类方法
    • 3. Rocchio
    • 4. KNN
    • 5. 线性分类器

1. 特征选择

  • 特征选择
    • 文本分类中,通常要将文本表示在一个高维空间下,每一维对应一个词项
    • 许多维上对应是罕见词
    • 罕见词可能会误导分类器
    • 这些会误导分类器的罕见词被称为噪音特征
      • 比如我们将对文本是否属于China类进行判断,假定某个罕见词项,比如Arachnocentric(心律不齐),没有任何关于China类的信息,但是在训练集中,该词的所有出现正好都在China这个类别中,这种情况下,我们就可能训练得到一个分类器,它认为Arachnocentric标志着类别China的出现
      • 这种从训练集中的偶然现象学习得到的一般化结果称为过学习/过拟合Overfitting,特征选择能减少过学习可能,并提高分类器的精度
    • 去掉这些噪音特征会同时提高文本分类的效率和效果
    • 上述过程称为特征选择
  • 基本的特征选择算法
    在这里插入图片描述
  • 不同的特征选择方法(主要基于其所使用特征效用指标来定义)
    • 频率法(选择高频词项)

      • 基于文档频率(DF)的选择方法:类别c中包含某个词项t的文档数目;Term的DF小于某个阈值去掉(太少,没有代表性)
      • 基于文档集频率(类别c中词项t出现的总次数)
      • 文档频率更适合于贝努利模型
      • 文档集频率更适合于多项式模型
    • 互信息/信息增益(选择具有最高互信息的那些词项)

      • 互信息MI给出的是词项所包含的有关类别的信息及类别包含的有关词项的信息量
      • 比如,如果词项的出现与否与类别独立(不同类别中包含和不包含词项的文档比例完全一样)
      • 定义:

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com