适用于:
SQL Server
Azure SQL 数据库
Azure SQL 托管实例
堆是不含聚集索引的表。 可在存储为堆的表上创建一个或多个非聚集索引。 数据存储于堆中并且无需指定顺序。 通常,数据最初是按照插入行的顺序存储的。 但是,数据库引擎可以在堆中移动数据以高效地存储行。 在查询结果中,无法预测数据顺序。 若要确保从堆返回的行的顺序,使用
ORDER BY
子句。 若要指定用于存储行的永久逻辑顺序,请对表创建聚集索引,以便表不是堆。
有时候可能有必要将表保留为堆,而不是创建聚集索引,但高效率地使用堆需要较高的技能。 大多数表应该具有仔细选择的聚集索引,除非有足够的理由将表保留为堆。
何时使用堆
堆非常适合经常被截断和重新加载的表。 数据库引擎通过填充最早的可用空间来优化堆中的空间。
考虑以下情况:
在堆中查找可用空间的成本可能很高,尤其是在有许多删除或更新的情况下。
聚集索引为不经常被截断的表提供稳定的性能。
对于经常被截断或重新创建的表(如临时表),使用堆通常更高效。
在使用堆和聚集索引之间选择可能会显著影响数据库的性能和效率。
在将某个表存储为堆时,通过引用由文件号、数据页码和页上的槽 (FileID:PageID:SlotID) 构成的 8 字节行标识符 (RID),标识单独行。 行 ID 是一个小且高效的结构。
可使用堆作为临时表来暂存大型无序插入操作。 由于插入数据时不应用严格的顺序,因此插入操作通常比插入到聚集索引的等效操作更快。 如果要读取堆的数据并将其处理成最终目标,创建一个包含查询所用搜索谓词的窄带非聚集索引可能会很有用。
按数据页面的顺序从堆中检索数据,但这不一定是插入数据的顺序。
始终通过非聚集索引访问数据且 RID 小于聚集索引键时,有时数据专业人员也会使用堆。
如果某个表是堆并且不具有任何非聚集索引,则必须读取整个表(表扫描)以便找到任何行。 SQL Server 无法直接在堆上查找 RID。 当表较小时,此行为可以接受。
何时不使用堆
在经常以排序后的顺序返回数据时,不要使用堆。 排序列上的聚集索引可以避免排序操作。
在数据经常组合在一起时,不要使用堆。 数据必须首先进行排序,然后才能分组,并且排序列上的聚集索引可以避免排序操作。
在经常从表查询数据范围时,不要使用堆。 范围列上的聚集索引避免对整个堆进行排序。
在不存在非聚集索引并且表比较大时,不要使用堆。 此设计的唯一应用是在没有任何指定顺序的情况下返回整个表内容。 在堆中,数据库引擎会读取所有行以查找任何行。
如果数据经常更新,请不要使用堆。 如果更新记录,并且更新在数据页中使用的空间比当前使用的空间多,则必须将记录移动到具有足够可用空间的数据页。 这会创建指向数据的新位置的前推记录
,并且前推指针必须在以前保存该数据的页中写入
,以指示新的物理位置。 这会在堆中引入碎片。 当数据库引擎扫描堆时,它会遵循这些指针。 此操作会限制预读性能,并且可能会产生额外的 I/O,从而降低扫描性能。
若要创建堆,请创建没有聚集索引的表。 如果表已具有某一聚集索引,则删除该聚集索引以便将该表返回到某一堆。
若要删除堆,请在该堆上创建聚集索引。
重新生成堆以回收浪费的空间:
在该堆上创建一个聚集索引,然后删除该聚集索引。
使用
ALTER TABLE ... REBUILD
命令重新生成堆。
创建或删除聚集索引要求重写整个表。 如果该表具有非聚集索引,则只要更改聚集索引,就必须全都重新创建所有非聚集索引。 因此,从堆更改为聚集索引结构或反之可能占用大量时间,并且要求足够的磁盘空间以便对 tempdb 中的数据重新进行排序。
以下查询会返回当前数据库中的堆列表。 此列表包括:
表大小 (KB)
索引大小 (KB)
未使用的空间
用于识别堆的列
SELECT t.name AS 'Your TableName',
s.name AS 'Your SchemaName',
p.rows AS 'Number of Rows in Your Table',
SUM(a.total_pages) * 8 AS 'Total Space of Your Table (KB)',
SUM(a.used_pages) * 8 AS 'Used Space of Your Table (KB)',
(SUM(a.total_pages) - SUM(a.used_pages)) * 8 AS 'Unused Space of Your Table (KB)',
WHEN i.index_id = 0
THEN 'Yes'
ELSE 'No'
END AS 'Is Your Table a Heap?'
FROM sys.tables t
INNER JOIN sys.indexes i
ON t.object_id = i.object_id
INNER JOIN sys.partitions p
ON i.object_id = p.object_id
AND i.index_id = p.index_id
INNER JOIN sys.allocation_units a
ON p.partition_id = a.container_id
LEFT JOIN sys.schemas s
ON t.schema_id = s.schema_id
WHERE i.index_id <= 1 -- 0 for Heap, 1 for Clustered Index
GROUP BY t.name,
s.name,
i.index_id,
p.rows
ORDER BY 'Your TableName';
堆是不含聚集索引的表。 堆的 sys.partitions中具有一行,对于堆使用的每个分区,都有 index_id = 0
。 默认情况下,一个堆有一个分区。 当堆有多个分区时,每个分区有一个堆结构,其中包含该特定分区的数据。 例如,如果一个堆有四个分区,则有四个堆结构;每个分区有一个堆结构。
根据堆中的数据类型,每个堆结构将有一个或多个分配单元来存储和管理特定分区的数据。 每个堆中每个分区至少有一个 IN_ROW_DATA
分配单元。 如果堆包含大型对象 (LOB) 列,则该堆的每个分区还将有一个 LOB_DATA
分配单元。 如果堆包含超过 8,060 字节的行大小限制的变量长度列,则它的每个分区中还会有一个 ROW_OVERFLOW_DATA
分配单元。
first_iam_page
系统视图中的列 sys.system_internals_allocation_units
指向 IAM 页链中的第一个 IAM 页,该 IAM 页链可管理分配给特定分区中的堆的空间。 SQL Server 使用 IAM 页在堆之间移动。 堆内的数据页和行没有任何特定的顺序,也不链接在一起。 数据页之间唯一的逻辑连接是记录在 IAM 页内的信息。
sys.system_internals_allocation_units
系统视图保留为仅供 SQL Server 内部使用。 不保证以后的兼容性。
可以通过扫描 IAM 页对堆进行表扫描或串行读操作来找到容纳该堆的页的扩展盘区。 因为 IAM 按扩展盘区在数据文件内存在的顺序表示它们,所以这意味着串行堆扫描连续沿每个文件进行。 使用 IAM 页设置扫描顺序还意味着堆中的行一般不按照插入的顺序返回。
下图说明了 SQL Server 数据库引擎如何使用 IAM 页检索单个分区堆中的数据行。
CREATE INDEX (Transact-SQL)
DROP INDEX (Transact-SQL)
描述的聚集索引和非聚集索引