东莞网站推广团队_龙之向导外贸专区_行业网站有哪些平台_精准大数据获客系统

ElasticSearch安装分词器与整合SpringBoot

如果还没安装的点击安装ElasticSearch查看怎么安装

分词器

1.分词器

在Elasticsearch中，分词器（Tokenizer）是分析器（Analyzer）的一部分，它的主要职责是将文本输入（如字符串）分割成一系列的词元（tokens）。这些词元是搜索和索引的基础单元。

分词器的作用

分割文本：将输入文本按照特定的规则分割成独立的词元。
记录位置信息：为每个词元记录其在原始文本中的位置信息，如起始和结束字符偏移量。
记录词元顺序：确定词元的顺序，这对于短语查询和词近邻查询非常重要。

内置分词器

Whitespace Tokenizer：按空白字符分割文本。
Standard Tokenizer：基于Unicode字符属性进行分词，类似于Java的String.split方法。
Punctuation Tokenizer：按标点符号分割文本。
Keyword Tokenizer：不进行分词，将整个输入文本作为一个词元。
Pattern Tokenizer：使用正则表达式进行分词。

2.ik分词器

在这里插入图片描述

点击下载：注意你是什么版本的下什么版本，如：我的elasticsearch是7.6.2就下7.6.2
解压后找到你的/usr/share/elasticsearch/plugins挂载的目录下，例如：

#当初我挂载的是/docker/elasticsearch/plugins
-v /docker/elasticsearch/plugins:/usr/share/elasticsearch/plugins

把解压后得到的ik目录放入plugins,只要ik目录，别是ik/ik/
重启

3.测试分词器

使用默认

POST _analyze
{ "text": "我是中国人"
}

使用分词器

POST _analyze
{ "analyzer": "ik_smart", "text": "我是中国人"
}

另外一个分词器ik_max_word

POST _analyze
{ "analyzer": "ik_max_word", "text": "我是中国人"
}

观察结果，就可以看出使用分词器之后的区别了

整合SpringBoot

Elasticsearch-Rest-Client

3.Maven导入

<dependency><groupId>org.elasticsearch.client</groupId><artifactId>elasticsearch-rest-high-level-client</artifactId><version>7.6.2</version>
</dependency>

2.配置

@Bean
RestHighLevelClient client() {
RestClientBuilder builder = RestClient.builder(new HttpHost("<你的虚拟机ip>", 9200, "http"));
return new RestHighLevelClient(builder);
}

3.测试

@Test
void test1() throws IOException {IndexRequest request = new IndexRequest("test").id("20").source("name","中国","id",20L);try {IndexResponse response = client.index(request, RequestOptions.DEFAULT);System.out.println(request.toString());IndexResponse response2 = client.index(request, RequestOptions.DEFAULT);} catch (ElasticsearchException e) {if (e.status() == RestStatus.CONFLICT) {}}
}

东莞网站推广团队_龙之向导外贸专区_行业网站有哪些平台_精准大数据获客系统

ElasticSearch安装分词器与整合SpringBoot

分词器

1.分词器

分词器的作用

内置分词器

2.ik分词器

3.测试分词器

整合SpringBoot

Elasticsearch-Rest-Client

3.Maven导入

2.配置

3.测试

最新新闻

热搜词