lucene系列(19)索引格式之kdi文件

2021-04-03 lucene►index Lucene, 搜索, 索引文件评论字数统计: 852(字) 阅读时长: 3(分)

本文使用 Lucene 代码版本：8.7.0

前言

本文学习kdi文件格式.

他又是经典三个文件中的存储索引的文件.

.kdi 文件整体结构

2021-04-13-11-30-48

字段解释：

PackedValue: 其实我更愿意叫他Index. 他是整个完全二叉树的内部节点集合.

采用先序遍历的方式，存储在一个字节数组(每个字节数组是一个Node)的数组中.

TreeNode: 树的内部节点.实现不一定完全相同. 主要可能包含以下部分.

LeftBlockFP: 这个参数不是一直存储的，如果当前节点是父节点的左儿子，则不存储。如果是父节点的右儿子，则存储下以当前节点为根的子树中，最左节点与当前节点的父节点为根的树中，最左节点的文件偏移增量.
code:

code是一个逻辑计算的值，公式如下：

int code = (firstDiffByteDelta * (1 + config.bytesPerDim) + prefix) * config.numIndexDims + splitDim;

其中:

firstDiffByteDelta: 前非叶节点的划分值与上一个非叶节点的划分值第一个不相同的字节位置偏移
config.bytesPerDim: 每一个维度的字节长度
prefix：当前非叶节点的划分值与上一个非叶节点的划分值相同前缀的字节数
numIndexDims: 点数据的索引维度
splitDim: 当前分割节点的分割维度

SplitValue: 切割点的值
leftNumBytes: 当前节点的左子树的总字节长度,可以用来快速定位到当前节点的右子树。在搜索过程中，如果我们只需要递归右子树，那么这个值有用，可以快速定位过去.

结语

不是特别透彻，先放着，后续优化.

完。

联系我

最后，欢迎关注我的个人公众号【呼延十】，会不定期更新很多后端工程师的学习笔记。
也欢迎直接公众号私信或者邮箱联系我，一定知无不言，言无不尽。

以上皆为个人所思所得，如有错误欢迎评论区指正。

欢迎转载，烦请署名并保留原文链接。

联系邮箱：huyanshi2580@gmail.com

更多学习笔记见个人博客或关注微信公众号 < 呼延十 >——>呼延十

本文链接： http://huyan.couplecoders.tech/2021/04/03/lucene/index/2021-04-03-lucene系列(19)索引格式之kdi文件/

版权声明： 本博客所有文章除特别声明外，均采用 CC BY 4.0 CN协议许可协议。转载请注明出处！

呼延十Developer

个人简介。

lucene系列(19)索引格式之kdi文件

前言

.kdi 文件整体结构

相关写入代码分析

结语

联系我

呼延十Developer