常见的中文分词库
开源库 | 语言 | 说明 |
---|---|---|
jieba | Python | 最好的 Python 中文分词组件 |
HanLP | Python | 一系列模型与算法组成的NLP工具包 |
FoolNLTK | Python | 可能是最准的开源中文分词 |
Jcseg | Java | 轻量级 Java 中文分词器 |
Ansj | Java | 基于 n-Gram+CRF+HMM 的中文分词的 Java 实现 |
word | Java | Java 分布式中文分词组件 |
huichen/sego | Go | 纯 go 实现中文分词 github |
wangbin/jiebago | Go | 纯 go 实现 jiebago |
go-ego/gse | Go | 借鉴前两者设计,纯 go 实现 github |
yanyiwu/gojieba | Go | 核心算法底层由C++实现,不能跨平台编译 gojieba |
参考
7个优秀的开源中文分词库推荐,实用性强!
golang 中文分词库比较