建发公司简介_搭建农村电商平台_职业培训机构哪家最好_网络自动推广软件

拓展阅读

分词系列专题

jieba-fenci 01 结巴分词原理讲解 segment

jieba-fenci 02 结巴分词原理讲解之数据归一化 segment

jieba-fenci 03 结巴分词与繁简体转换 segment

jieba-fenci 04 结巴分词之词性标注实现思路 speechTagging segment

jieba-fenci 05 结巴分词之简单聊一聊

关键词系列专题

NLP segment-01-聊一聊分词

NLP segment-02-聊一聊关键词提取 keyword

NLP segment-03-基于 TF-IDF 实现关键词提取 java 开源实现

NLP segment-20-分词开源项目介绍 HanLP 未来十年的自然语言处理

NLP segment-21-分词开源项目介绍 ansj_seg

倒排索引原理与实现 reverse-index

TF-IDF 自动生成文章摘要

TF-IDF 自动提取关键词

相似文章算法之语义指纹-文本内容去重

TF-IDF 找出相似文章算法

开源项目

为了便于大家学习，项目开源地址如下，欢迎 fork+star 鼓励一下老马~

nlp-keyword 关键词

pinyin 汉字转拼音

segment 高性能中文分词

opencc4j 中文繁简体转换

nlp-hanzi-similar 汉字相似度

word-checker 拼写检测

sensitive-word 敏感词

HanLP

借助世界上最大的多语种语料库，HanLP2.1支持包括简繁中英日俄法德在内的104种语言上的10种联合任务：分词（粗分、细分2个标准，强制、合并、校正3种词典模式）、词性标注（PKU、863、CTB、UD四套词性规范）、命名实体识别（PKU、MSRA、OntoNotes三套规范）、依存句法分析（SD、UD规范）、成分句法分析、语义依存分析（SemEval16、DM、PAS、PSD四套规范）、语义角色标注、词干提取、词法语法特征提取、抽象意义表示（AMR）。

量体裁衣， HanLP 提供RESTful和native两种API，分别面向轻量级和海量级两种场景。

无论何种API何种语言，HanLP接口在语义上保持一致，在代码上坚持开源。

轻量级 RESTful API

仅数KB，适合敏捷开发、移动APP等场景。服务器算力有限，匿名用户配额较少，建议申请公益API秘钥auth。

Java

在pom.xml中添加依赖：

<dependency><groupId>com.hankcs.hanlp.restful</groupId><artifactId>hanlp-restful</artifactId><version>0.0.6</version>
</dependency>

创建客户端，填入服务器地址和秘钥：

HanLPClient HanLP = new HanLPClient("https://www.hanlp.com/api", null, "zh"); // auth不填则匿名，zh中文，mul多语种

快速上手

无论何种开发语言，调用parse接口，传入一篇文章，得到HanLP精准的分析结果。

HanLP.parse("2021年HanLPv2.1为生产环境带来次世代最先进的多语种NLP技术。阿婆主来到北京立方庭参观自然语义科技公司。")