维基百科中的定义,在计算机科学中,树(英语:tree)是一种抽象数据类型(ADT)或是实现这种抽象数据类型的数据结构,用来模拟具有树状结构性质的数据集合。它是由n(n>0)个有限节点组成一个具有层次关系的集合。把它叫做“树”是因为它看起来像一棵倒挂的树,也就是说它是根朝上,而叶朝下的。它具有以下的特点:
树的三个比较相似的概念:高度(Height)、深度(Depth)、层(Level)
树中任意节点的子节点之间没有顺序关系,这种树称为无序树,也称为自由树;
树中任意节点的子节点之间有顺序关系,这种树称为有序树;
二叉树(英语:Binary tree)是每个节点最多只有两个分支(即不存在分支度大于2的节点)的树结构。通常分支被称作“左子树”或“右子树”。
叶子节点全部都在最底层,并且每个节点都有两个子节点,如图6,这种二叉树就叫作满二叉树。
叶子节点都在最底下两层,最后一层的叶子节点都排列在最左边,除了最后一层,其他层的节点个数都达到最大,如图7,这种二叉树叫作完全二叉树。
如果是非完全二叉树,会比较浪费数组的空间。大部分二叉树代码都是通过链式这种结构来存储。
在树中的任意一个节点,其左子树中的每个节点的值,都要小于这个节点的值,而右子树节点的值都大于这个节点的值。
先取根节点,如果它等于我们要查找的数据,那就返回。如果要查找的数据比根节点的值小,那就在左子树中递归查找;如果要查找的数据比根节点的值大,那就在右子树中递归查找。如下图
// 递归算法,看以 Node 为根的二叉查找树是否包含e
func contains(n *Node, e interface{}) bool {
if n == nil {
return false
}
if util.Compare(n.e, e) == 0 {
return true
} else if util.Compare(e, n.e) < 0 {
return contains(n.left, e)
} else {
return contains(n.right, e)
}
}
要插入的数据比节点的数据大,并且节点的右子树为空,就将新数据直接插到右子节点的位置;如果不为空,就再递归遍历右子树,查找插入位置。同理,如果要插入的数据比节点数值小,并且节点的左子树为空,就将新数据插入到左子节点的位置;如果不为空,就再递归遍历左子树,查找插入位置。
// 递归算法,插入元素e,返回插入新节点之后的二叉查找树的根
func (b *BST) add(n *Node, e interface{}) *Node {
if n == nil {
b.size ++
return createNode(e)
}
if util.Compare(e, n.e) < 0 {
n.left = b.add(n.left, e)
} else if util.Compare(e, n.e) > 0 {
n.right = b.add(n.right, e)
}
return n
}
// 递归算法,前序遍历 Node 为根的二叉查找树
func preOrder(n *Node) {
if n == nil {
return
}
fmt.Println(n.e)
preOrder(n.left)
preOrder(n.right)
}
// 递归算法,中序遍历 Node 为根的二叉查找树
func inOrder(n *Node) {
if n == nil {
return
}
inOrder(n.left)
fmt.Println(n.e)
inOrder(n.right)
}
// 递归算法,后序遍历 Node 为根的二叉查找树
func postOrder(n *Node) {
if n == nil {
return
}
postOrder(n.left)
postOrder(n.right)
fmt.Println(n.e)
}
注:中序遍历二叉搜索树可以输出有序的数据序列,时间复杂度是 O(n),非常高效。后序遍历是先遍历左右子节点再遍历本身,内存的释放可以采用后序遍历的方式。
层序遍历是一种广度优先的遍历方式,先遍历根节点这一层,再遍历第二层,依次这样从上到下,从左到右。利用队列先入先出的特性。根节点入队列,开始循环判断,条件是队列是否为空,先处理当前节点,然后出队列(此时队列为空),看看当前节点有没有左右子节点,如果有入队列(此时队列不为空,进入下一层循环)以此类推。
func (b *BST) LevelOrder() {
queue := LoopQueue.New(30)
queue.Enqueue(b.root)
for ! queue.IsEmpty() {
cur := queue.Dequeue().(*Node)
fmt.Println(cur.e)
if cur.left != nil {
queue.Enqueue(cur.left)
}
if cur.right != nil {
queue.Enqueue(cur.right)
}
}
}
// 删除二叉查找树最小值所在的节点,返回最小值
func (b *BST) RemoveMin() interface{} {
ret := b.Minimum()
b.root = b.removeMin(b.root)
return ret
}
// 递归算法,删除以 Node 为根的二叉查找树中最小 节点
// 返回删除节点后新的二叉查找树的根
func (b *BST) removeMin(n *Node) *Node {
if n.left == nil {
right := n.right
b.size--
return right
}
n.left = b.removeMin(n.left)
return n
}
// 删除二叉查找树最大值所在的节点,返回最大值
func (b *BST) RemoveMax() interface{} {
ret := b.Maximum()
b.root = b.removeMax(b.root)
return ret
}
// 递归算法,删除以 Node 为根的二叉查找树中最大节点
// 返回删除节点后新的二叉查找树的根
func (b *BST) removeMax(n *Node) *Node {
if n.right == nil {
left := n.left
b.size--
return left
}
n.right = b.removeMax(n.right)
return n
}
根据要删除节点的子节点个数的不同,我们需要分三种情况来处理: 1. 如果要删除的节点没有子节点,我们只需要直接将父节点中,指向要删除节点的指针置为 null。比如图14中的删除节点 54。 2. 如果要删除的节点只有一个子节点(只有左子节点或者右子节点),我们只需要更新父节点中,指向要删除节点的指针,让它指向要删除节点的子节点就可以了。比如图14中的删除节点 13。 3. 如果要删除的节点有两个子节点,这就比较复杂了。我们需要找到这个节点的右子树中的最小节点,把它替换到要删除的节点上。然后再删除掉这个最小节点,因为最小节点肯定没有左子节点(如果有左子结点,那就不是最小节点了),所以,我们可以应用上面两条规则来删除这个最小节点。比如图14中的删除节点 18。
// 从二叉查找树中删除元素为 e 的节点
func (b *BST) Remove(e interface{}) {
b.root = b.remove(b.root, e)
}
// 递归算法,删除以 Node 为根的二叉查找树中值为 e 的节点
// 返回删除节点后新的二分搜索树的根
func (b *BST) remove(n *Node, e interface{}) *Node{
if n == nil {
return nil
}
if util.Compare(e, n.e) < 0 {
n.left = b.remove(n.left, e)
return n
} else if util.Compare(e, n.e) > 0 {
n.right = b.remove(n.right, e)
return n
} else {
if n.left == nil {
right := n.right
n.right = nil
b.size--
return right
}
if n.right == nil {
left := n.left
n.left = nil
return left
}
// 待删除节点左右子节点都不为空
// 找到比待删除节点大的最小节点,即待删除节点右子树的最小节点
// 用这个后稷节点代替待删除的节点
successor := minimum(n.right)
successor.right = b.removeMin(n.right)
successor.left = n.left
n.left = nil
n.right = nil
return successor
}
}
如图15所示,对于同一组数据,构造了三种二叉查找树。但这三种二叉查找树的查找、插入、删除操作的执行效率是不一样的。当数据的插入顺序接近有序的时候,二叉查找树就有可能退化成了链表,时间复杂度从logn又变成了n。
显然,极度不平衡的二叉查找树,它的查找性能肯定不能满足我们的需求。我们需要构建一种不管怎么删除、插入数据,在任何时候,都能保持任意节点左右子树都比较平衡的二叉查找树。
平衡二叉树的实现:
1962年,Adelson-Velsikii和Landis提出了一种结点在高度上相对平衡的二叉查找树,又称为AVL树。其平均和最坏情况下的查找时间都是O(logn)。同时,插入和删除的时间复杂性也会保持O(logn),且在插入和删除之后,在高度上仍然保持平衡。AVL树又称为平衡二叉树,即Balanced Binary Tree或者Height-Balanced Tree,它或者是一棵空二叉树,或者是具有如下性质的二叉查找树:其左子树和右子树都是高度平衡的二叉树,且左子树和右子树的高度之差的绝对值不超过1。如果将二叉树上结点的平衡因子BF(Balanced Factor)定义为该结点的左子树与右子树的高度之差,根据AVL树的定义,AVL树中的任意结点的平衡因子只可能是-1(右子树高于左子树)、0或者1(左子树高于右子树),在某些图中也会表示为绝对高度差,即0,1,2这种形式,请注意理解。
type Node struct {
key interface{}
value interface{}
left, right *Node
height int
}
每次在插入新节点之后都会找到离新插入节点最近的非平衡叶节点,然后对其进行旋转操作以使得树中的每个节点都处于平衡状态。
LL
// 对节点y进行向右旋转操作,返回旋转后新的根节点x
// y x
// / \ / \
// x T4 向右旋转 (y) z y
// / \ - - - - - - - -> / \ / \
// z T3 T1 T2 T3 T4
// / \
// T1 T2
func (a *AVLTree) rightRotate(y *Node) *Node {
x := y.left
T3 := x.right
// 向右旋转过程
x.right = y
y.left = T3
// 更新 height
y.height = int(math.Max(float64(a.getHeight(y.left)), float64(a.getHeight(y.right)))) + 1
x.height = int(math.Max(float64(a.getHeight(x.left)), float64(a.getHeight(x.right)))) + 1
return x
}
RR
// 对节点y进行向左旋转操作,返回旋转后新的根节点x
// y x
// / \ / \
// T1 x 向左旋转 (y) y z
// / \ - - - - - - - -> / \ / \
// T2 z T1 T2 T3 T4
// / \
// T3 T4
func (a *AVLTree) leftRotate(y *Node) *Node {
x := y.right
T2 := x.left
// 向左旋转过程
x.left = y
y.right = T2
// 更新 height
y.height = int(math.Max(float64(a.getHeight(y.left)), float64(a.getHeight(y.right)))) + 1
x.height = int(math.Max(float64(a.getHeight(x.left)), float64(a.getHeight(x.right)))) + 1
return x
}
LR(左侧的右侧)
// T1 < x < T2 < z < T3 < y < T4
// y y
// / \ / \
// x T4 向左旋转 (x) z T4
// / \ - - - - - - - -> / \ 同LL 右旋
// T1 z x T3
// / \ / \
// T2 T3 T1 T2
if balanceFactor > 1 && a.getBalanceFactor(n.left) < 0 {
n.left = a.leftRotate(n.left)
return a.rightRotate(n)
}
RL
// T1 < y <T2 < z < T3 < x < T4
// y y
// / \ / \
// T1 x 向右旋转 (x) T1 z 同RR 左旋
// / \ - - - - - - - -> / \
// z T4 T2 x
// / \ / \
// T2 T3 T3 T4
if balanceFactor < -1 && a.getBalanceFactor(n.right) > 0 {
n.right = a.rightRotate(n.right)
return a.leftRotate(n)
}
此处省略
和二叉树不一样,2-3树运行每个节点保存1个或者两个的值。对于普通的2节点(2-node),他保存1个key和左右两个自己点。对应3节点(3-node),保存两个Key,2-3查找树的定义如下: 一棵不为空的 2-3树主要由以下节点构成:
2-3树满足二分搜索树(BST)的基本性质,2-3树是一棵绝对平衡的树。
插入一个 3-节点,没有父亲节点
插入一个 3-节点,同时父亲节点为 2-节点
插入一个 3-节点,同时父亲节点为 3-节点
将一个4-节点分解为一棵2-3树有 6 种情况
2-3树的生长是由下往上的,也就是说,没插入一个新的节点,都先与叶子节点相融合,然后再根据不同的情况向上做调整。
下面是不断插入节点构造一棵 2-3树的过程:
将特殊的边的信息存放在节点上。引入红色节点表示:它与它的父亲在 2-3树中是一个 2-节点。
现在我们来根据一个 2-3树来绘制一棵红黑树。
红黑树是一种具有红色和黑色链接的平衡查找树,同时满足:
红色节点向左倾斜 一个节点不可能有两个红色链接 整个书完全黑色平衡,即从根节点到所以叶子结点的路径上,黑色链接的个数都相同。
通过上图可以清晰的知道,将红链接画平后,一棵红黑树就是一棵 2-3树。
「算法导论」中对红黑树的定义:
每个节点或者是红色的,或者是黑色的
根节点是黑色的
每一个叶子节点(最后的空节点)是黑色的 -Every leaf(NIL)is black
如果一个节点是红色的,那么它的孩子节点是黑色的
从任意一个节点到叶子节点,经过的黑色节点的个数是相同的
红黑树是保持“黑平衡”的二叉树,严格意义来说,红黑树不是一棵平衡二叉树。
红黑树的最大高度:2logn => 时间复杂度(增删改查):O(logn) 红黑树不会退化成为一个链表。
红黑树的最大高度要高于 AVL 树,在红黑树上进行元素的查找,相比于 AVL 树会慢一些。但是这不影响红黑树成为一个伟大的数据结构,甚至比 AVL 树还要重要、还要常用。
红黑树的添加元素、删除元素,相比于 AVL 树来说,要更加快速。对于数据结构来说,如果存储的元素经常需要添加/删除的话,相应的使用红黑树就是一个更好的选择。但是如果在数据结构中存储的数据近乎不会变动,创建完成后,主要进行查询/修改操作,那么选择 AVL 树就是一个很好的选择。
B树和平衡二叉树稍有不同的是B树属于多叉树又名平衡多路查找树(查找路径不只两个),数据库索引技术里大量使用者B树和B+树的数据结构。
最后我们用一个图和一个实际的例子来理解B树(这里为了理解方便我就直接用实际字母的大小来排列C>B>A)
如上图我要从上图中找到E字母,查找流程如下
定义一个5阶树(平衡5路查找树;),现在我们要把3、8、31、11、23、29、50、28 这些数字构建出一个5阶树出来;
先插入 3、8、31、11
再插入23、29
再插入50、28
B树相对于平衡二叉树的不同是,每个节点包含的关键字增多了,特别是在B树应用到数据库中的时候,数据库充分利用了磁盘块的原理(磁盘数据存储是采用块的形式存储的,每个块的大小为4K,每次IO进行数据读取时,同一个磁盘块的数据可以一次性读取出来)把节点大小限制和充分使用在磁盘快大小范围;把树的节点关键字增多后树的层级比原来的二叉树少了,减少数据查找的次数和复杂度;
B+树是B树的一个升级版,相对于B树来说B+树更充分的利用了节点的空间,让查询速度更加稳定,其速度完全接近于二分法查找。为什么说B+树查找的效率要比B树更高、更稳定;我们先看看两者的区别
百度百科算法结构示意图
维基百科算法结构示意图
B树相对于B+树的优点是,如果经常访问的数据离根节点很近,而B树的非叶子节点本身存有关键字其数据的地址,所以这种数据检索的时候会要比B+树快。
本站(PHP --> Golang)已重构,代码开源
当你能力不能满足你的野心的时候,你就该沉下心来学习