博客
关于我
后缀树
阅读量:413 次
发布时间:2019-03-06

本文共 1002 字,大约阅读时间需要 3 分钟。

后缀树的构造与Ukkonen算法

1. 后缀树的定义

后缀树是一种强大的数据结构,广泛应用于文本处理、模式匹配等领域。以下是后缀树的定义:

  • 后缀树有n个叶节点(n为字符串s的长度)。
  • 每个内部节点至少有两个儿子。
  • 从同一节点引出的任意两条边上的字符串不会以相同字符开始。
  • 从根节点到任意叶节点的路径上的字符连起来是一个s的后缀。
  • 通过在字符串s中添加一个从未出现过的哨兵字符,可以构造出符合后缀树定义的结构。删除所有度数为1的节点后,得到的树即为后缀树。

    2. Ukkonen算法

    Ukkonen算法是一种在线构造后缀树的高效算法,时间复杂度为O(|s|)。该算法通过引入后缀链(suffix link)和维护当前最长隐式后缀(remaining)来加速插入过程。

    算法步骤:

  • 初始化后缀树,只有根节点(id=1),len=0,now=1,n=0。
  • 遍历字符串s的每个字符:
    • 增加n和len。
    • 如果当前节点的边不存在,创建新节点,并将last的后缀链接指向该节点。
    • 否则,检查当前边的第len个字符是否与新字符相同:
      • 如果相同,沿着后缀链跳转,更新last。
      • 如果不同,创建新节点,分裂边,并更新后缀链接。
    • 如果now=1,跳转到后缀链接;否则,减少len。
  • 直到处理完所有字符。
  • 代码分析:

    • newnode函数用于创建新节点,设置父节点和后缀链接。
    • extend函数负责插入新字符:
      • 检查当前节点是否有对应的边。
      • 如果不存在,创建新节点并更新后缀链接。
      • 如果存在,检查字符是否匹配:
        • 匹配:沿着后缀链跳转。
        • 不匹配:分裂边,创建新节点。
    • lennow的维护确保正确处理隐式后缀。

    优化技巧:

    • 当字符串为非隐式时,设置len为INF,避免重复处理。
    • 后缀链接的维护确保树的正确性,减少重复计算。

    3. 算法分析

    • 变量声明:
      • link:后缀链接数组。
      • le:当前节点父边的字符串长度。
      • start:记录父边的第一个字符位置。
      • s:当前插入的字符。
      • ch:字符数组,用于存储当前节点的边信息。
    • 关键步骤:
      • 插入新字符时,假设len加1,检查边是否存在。
      • 根据是否存在边,决定是否创建新节点。
      • 维护len和now,确保后缀树的正确性。

    结论:Ukkonen算法通过后缀链加速,避免了暴力枚举所有后缀,实现了线性时间的构造过程。该算法不仅高效,还通过巧妙的维护机制确保了后缀树的正确性,是构造后缀树的首选算法。

    转载地址:http://kidkz.baihongyu.com/

    你可能感兴趣的文章
    NIFI大数据进阶_离线同步MySql数据到HDFS_02_实际操作_splitjson处理器_puthdfs处理器_querydatabasetable处理器---大数据之Nifi工作笔记0030
    查看>>
    NIFI大数据进阶_连接与关系_设置数据流负载均衡_设置背压_设置展现弯曲_介绍以及实际操作---大数据之Nifi工作笔记0027
    查看>>
    NIFI数据库同步_多表_特定表同时同步_实际操作_MySqlToMysql_可推广到其他数据库_Postgresql_Hbase_SqlServer等----大数据之Nifi工作笔记0053
    查看>>
    NIFI汉化_替换logo_二次开发_Idea编译NIFI最新源码_详细过程记录_全解析_Maven编译NIFI避坑指南001---大数据之Nifi工作笔记0068
    查看>>
    NIFI集群_内存溢出_CPU占用100%修复_GC overhead limit exceeded_NIFI: out of memory error ---大数据之Nifi工作笔记0017
    查看>>
    NIFI集群_队列Queue中数据无法清空_清除队列数据报错_无法删除queue_解决_集群中机器交替重启删除---大数据之Nifi工作笔记0061
    查看>>
    NIH发布包含10600张CT图像数据库 为AI算法测试铺路
    查看>>
    Nim教程【十二】
    查看>>
    Nim游戏
    查看>>
    NIO ByteBuffer实现原理
    查看>>
    Nio ByteBuffer组件读写指针切换原理与常用方法
    查看>>
    NIO Selector实现原理
    查看>>
    nio 中channel和buffer的基本使用
    查看>>
    NIO基于UDP协议的网络编程
    查看>>
    NISP一级,NISP二级报考说明,零基础入门到精通,收藏这篇就够了
    查看>>
    Nitrux 3.8 发布!性能全面提升,带来非凡体验
    查看>>
    NI笔试——大数加法
    查看>>
    NLog 自定义字段 写入 oracle
    查看>>
    NLog类库使用探索——详解配置
    查看>>
    NLP 基于kashgari和BERT实现中文命名实体识别(NER)
    查看>>