Kafka深入解析

一、kafka存储结构

1.kafka为什么使用磁盘作为存储介质

2.分析文件存储格式

3.快速检索消息

1.kafka存储结构

Kafka 的基本存储单元是分区（partition）

（1）每个partition相当于一个大文件被平均分配到多个大小相等的segment段(数据文件)里，

默认情况下,每个片段包含 1GB 或一周的数据,以较小的那个为准。

（2）每个patition只需要支持顺序读写即可，segment文件的生命周期由服务端配置参数决定。

它将每个 Partition 分为多个 Segment，每个 Segment 对应两个文件：“.index” 索引文件和 “.log” 数据文件。

这些文件位于同一文件下，该文件夹的命名规则为：topic 名-分区号。例如，first 这个 topic 有三分分区，则其对应的文件夹为 first-0，first-1，first-2。

# ls /root/data/kafka/first-0        
00000000000000009014.index    
00000000000000009014.log
00000000000000009014.timeindex
00000000000000009014.snapshot   
leader-epoch-checkpoint

2.partition中segment文件存储结构

（1）segment文件组成：主要由2部分组成，index文件、data文件，这两个文件一一对应，成对出现，分别代表索引文件和数据文件，二者名称一样，仅仅只是后缀不一样，一个是.index，一个是.log

（2）segment文件命名规则：partition中第一个segment从0开始，每个segment文件名称为上一个segment文件最后一条消息的offset值。数值最大为64为long大小，19位数字字符长度，没有数字用0填充。

二、kafka日志索引

1.数据文件的分段

kafka解决查询效率的手段之一是将数据文件分段，比如有100条Message，他们的offset是从0到99的，假如数据分为5段，第一段为0-19，第二段为20-39，以此类推，这样在查找指定offset的Message时，用二分查找就可以定位到该消息再哪个段中。

2.偏移量索引

数据文件分段使得可以快速查到对应的Message，但是依旧需要扫描才能找到对应的Message。为了进一步提供查询效率，kafka为每个分段后的segment文件建立了索引文件，索引文件名称与数据文件名称都是一样的，只是扩展名为.index。

三、kafka日志清理

1.Kafka日志管理器删除策略

（1）按时间删除：目前策略是删除修改时间在N天之前的日志。

（2）按大小删除：保留最后的N GB数据。

2.超时数据的清理机制

一般情况下，Kafka 会根据设置的时间保留数据，把超过时效的旧数据删除掉。

Kafka 通过改变主题的保留策略来满足这些使用场景，早于保留时间的事件会被删除, 为每个键保留最新的值, 从而达到清理的效果每个日志片段可以分为以下两个部分：

干净的部分，这些消息之前被清理过, 每个键只有一个对应的值，这个值是上一次清理时保留下来的。
污浊的部分，这些消息是在上一次清理之后写入的。

清理分区

为了清理分区, 清理线程会读取分区的污独部分, 并在内存里创建一个 map。 map 里的每个元素包含了消息键的散列值和消息的偏移量,键的散列值是 16B,加上偏移量总共是 24B。如果要清理一个 1GB 的日志片段,并假设每个消息大小为 1KB,那么这个片段就包含_一百万个消息,而我们只需要用 24MB的 map 就可以清理这个片段。 (如果有重复的键, 可以重用散列项, 从而使用更少的内存。 )

四、kafka日志压缩（日志清理的一种方式）

1.日志压缩

将数据压缩，只是保留每个key最后一个版本的数据。清理的思想就是根据 Key 的重复来进行整理，注意，它不是数据删除策略，而是类似于压缩策略，如果 key 送入了值，对于业务来说，key 的值应该是最新的 value 才有意义，所以进行清理后只会保存一个 key 的最新的 value,这个适用于一些业务场景，比如说 key 代表用户 ID,Value 用户名称，如果使用清理功能就能够达到最新的用户的名称的消息（这个功能有限，请参考使用）

2.注意

kafka默认是关闭日志压缩的，启用压缩策略，需要分两步配置：

（1）在broker中配置：log.cleaner.enable=true

（2）在Topic中配置：log.cleanup.policy=compact

五、kafka为什么要用磁盘作为存储介质

Kafka选择使用磁盘作为存储介质，主要基于以下几个方面的原因：

1. 顺序读写优化

顺序写入速度快：磁盘的顺序读写性能远高于随机读写。Kafka在设计时采用了文件追加的方式来写入消息，即只能在日志文件的尾部追加新的消息，并且不允许修改已写入的消息，这种方式属于典型的顺序写盘操作，能够充分发挥磁盘顺序写入的性能优势。
操作系统优化：操作系统可以对顺序读写进行深层次的优化，如预读（read-ahead）和后写（write-behind）技术，进一步提升读写效率。

2. 页缓存和mmap技术

页缓存：Kafka大量使用了操作系统的页缓存机制。页缓存将磁盘中的数据缓存到内存中，减少对磁盘I/O的操作。当进程需要读取磁盘上的文件时，如果数据已在页缓存中，则直接返回数据，避免了磁盘I/O。
mmap（内存映射文件）：Kafka通过mmap技术将磁盘文件映射到内存中，用户可以通过修改内存来修改磁盘文件，提高了数据的读写效率。

3. 避免JVM内存和系统内存之间的复制

减少性能开销：直接使用磁盘进行存储，避免了数据在JVM内存和系统内存之间的复制，减少了性能的创建对象和垃圾回收的开销。

4. 高效的数据管理和查询

数据文件分段：Kafka将topic中的一个partition大文件分成多个小文件段（segment），通过多个小文件段，容易定期清除或删除已经消费完的文件，减少磁盘占用。
索引机制：为了提高查询效率，Kafka为每个分段后的数据文件建立了索引文件。索引文件中包含索引条目，每个条目表示数据文件中一条消息的索引，包括相对offset和position，通过索引可以快速定位消息。

5. 可靠性和持久性

数据持久化：Kafka将消息持久化到磁盘，即使Kafka服务重启，页缓存还是会保持有效，而进程内的缓存却需要重建。这极大地简化了代码逻辑，并提高了数据的可靠性和持久性。
多副本机制：Kafka通过数据的复制机制，确保了在某些节点出现故障的情况下，系统依然能够正常工作，不会丢失数据。

综上所述，Kafka选择使用磁盘作为存储介质，主要是因为磁盘的顺序读写性能优异、页缓存和mmap技术提高了数据读写效率、避免了JVM内存和系统内存之间的复制开销、实现了高效的数据管理和查询机制，以及提供了可靠的数据持久化和多副本机制。这些因素共同使得Kafka成为一个高性能、高可靠性的消息系统。