一、数据类型
1、Text (文本数据类型)
2、Keyword(关键字数据类型)
3、Alias(别名类型)
4、Arrays (集合类型)
5、日期类型
6、Numeric (数值数据类型)
7、Boolean(布尔类型)
8、IP (数据类型)
9、Range (范围数据类型)
10、Binary (二进制类型)
11、Object (对象数据类型)
12、Dense vector (密集矢量数据类型)
13、Flattened (扁平化数据类型)
14、Geo-point (地理位置数据类型)
15、Join (链接数据类型)
16、Nested (嵌套数据类型)
17、Token count (令牌计数数据类型)
二、索引
1、正排索引和倒排索引的区别
正排索引:是文档(ID)到关键词的映射(从文档找关键词)
倒排索引:是关键词到文档(ID)的映射(从关键词到文档)
三、分词
1、分词:是将文本字符串拆分成独立的词汇和术语的过程。
四、分词器
1、Character Filters(字符过滤器):对原始文本进行预处理,对文本修改或者删除等。比如删除html标签、特定词替换等。
2、Tokenizer (分词器):对字符过滤器处理过的文本切分成一个个词条,形成词条流。切分规则可以是空格、标点符号等。
3、Token Filters(词汇过滤器):对切分后的词条进一步处理,大小写替换、启用停用词(没有意义的词)。词汇过滤器处理文本以适应索引和查询需求非常重要。
五、常见分词器
1、Standard Analyzer(分词依据:空格、标点符号)(特点:小写化处理,过滤符号)
2、Whitespace Analyzer (分词依据:空格)(特点:不进行小写处理、保留所有字符)
3、Keyword Analyzer (分词依据:无)(特点:将这个输入作为一个词条)
4、Simple Analyzer(分词依据:非字母(符号、数字))(特点:小写化处理、过滤符号、支持中文拼音分词)
5、Stop Analyzer (分词依据:空格)(特点:小写化处理,过滤停用词)
6、IK Analyzer(分词依据:词典)(特点:中文分词)
7、Edge Ngram Analyzer(分词依据:n-gram)(特点:按指定步长进行分词)
8、Pattern Analyzer (分词依据:正则匹配字符)(特点:灵活)
9、Custom Analyzer (分词依据:自定义)(特点:灵活)