后缀树-白红宇

后缀树

阅读量：413 次

发布时间：2019-03-06

本文共 1002 字，大约阅读时间需要 3 分钟。

后缀树的构造与Ukkonen算法

1. 后缀树的定义

后缀树是一种强大的数据结构，广泛应用于文本处理、模式匹配等领域。以下是后缀树的定义：

后缀树有n个叶节点（n为字符串s的长度）。

每个内部节点至少有两个儿子。

从同一节点引出的任意两条边上的字符串不会以相同字符开始。

从根节点到任意叶节点的路径上的字符连起来是一个s的后缀。

通过在字符串s中添加一个从未出现过的哨兵字符，可以构造出符合后缀树定义的结构。删除所有度数为1的节点后，得到的树即为后缀树。

2. Ukkonen算法

Ukkonen算法是一种在线构造后缀树的高效算法，时间复杂度为O(|s|)。该算法通过引入后缀链（suffix link）和维护当前最长隐式后缀（remaining）来加速插入过程。

算法步骤：

初始化后缀树，只有根节点（id=1），len=0，now=1，n=0。

遍历字符串s的每个字符：

增加n和len。

如果当前节点的边不存在，创建新节点，并将last的后缀链接指向该节点。

否则，检查当前边的第len个字符是否与新字符相同：
- 如果相同，沿着后缀链跳转，更新last。
- 如果不同，创建新节点，分裂边，并更新后缀链接。

如果now=1，跳转到后缀链接；否则，减少len。

直到处理完所有字符。

代码分析：

newnode函数用于创建新节点，设置父节点和后缀链接。

extend函数负责插入新字符：
- 检查当前节点是否有对应的边。
- 如果不存在，创建新节点并更新后缀链接。
- 如果存在，检查字符是否匹配：
  - 匹配：沿着后缀链跳转。
  - 不匹配：分裂边，创建新节点。

len和now的维护确保正确处理隐式后缀。

优化技巧：

当字符串为非隐式时，设置len为INF，避免重复处理。

后缀链接的维护确保树的正确性，减少重复计算。

3. 算法分析

变量声明：
- link：后缀链接数组。
- le：当前节点父边的字符串长度。
- start：记录父边的第一个字符位置。
- s：当前插入的字符。
- ch：字符数组，用于存储当前节点的边信息。

关键步骤：
- 插入新字符时，假设len加1，检查边是否存在。
- 根据是否存在边，决定是否创建新节点。
- 维护len和now，确保后缀树的正确性。

结论：Ukkonen算法通过后缀链加速，避免了暴力枚举所有后缀，实现了线性时间的构造过程。该算法不仅高效，还通过巧妙的维护机制确保了后缀树的正确性，是构造后缀树的首选算法。

转载地址：http://kidkz.baihongyu.com/

你可能感兴趣的文章

Objective-C实现FigurateNumber垛积数算法（附完整源码）

Objective-C实现finding bridges寻找桥梁算法(附完整源码)

Objective-C实现first come first served先到先得算法(附完整源码)

Objective-C实现fisherYates洗牌算法（附完整源码）

Objective-C实现FTP文件上传(附完整源码)

Objective-C实现fuzzy operations模糊运算算法(附完整源码)

Objective-C实现Gale-Shapley盖尔-沙普利算法(附完整源码)

Objective-C实现gamma recursive伽玛递归算法(附完整源码)

Objective-C实现getline函数功能(附完整源码)

Objective-C实现gnome sortt侏儒排序算法(附完整源码)

Objective-C实现GraphVertex图顶点算法（附完整源码）

Objective-C实现greatest common divisor最大公约数算法(附完整源码)

Objective-C实现greedy coin change贪心硬币找零算法(附完整源码)

Objective-C实现half adder半加器算法(附完整源码)

Objective-C实现hamiltonianCycle哈密尔顿图算法（附完整源码）

Objective-C实现hamming code汉明码算法(附完整源码)

Objective-C实现hamming numbers汉明数算法(附完整源码)

Objective-C实现hammingDistance汉明距离算法（附完整源码）

Objective-C实现hanning 窗（附完整源码）

Objective-C实现hanoiTower汉诺塔算法（附完整源码）