sql基本查询———增量_sql增量查询_ask_xl的博客

相关文章推荐

不羁的勺子 · 市人大财经委、常委会预算工委调研制造业智能化 ...· 1 年前 ·

近视的人字拖 · JavaScript/JS ...· 1 年前 ·

酒量小的柳树 · A Guide To Logback | ...· 1 年前 ·

考研的冰淇淋 · 使用Thymeleaf-Spring跨模板生 ...· 1 年前 ·

性感的青椒 · 监控实时视频跳帧推理检测识别原理代码示例_视 ...· 2 年前 ·

SELECT UPPER (F.TABLESPACE_NAME) AS " 表空间名称 ",

ROUND (D.AVAILB_BYTES, 2 ) AS " 当前表空间大小 (G)",

ROUND (D.MAX_BYTES, 2 ) AS " 自增后 (G)",

ROUND ((D.AVAILB_BYTES - F.USED_BYTES), 2 ) AS " 已用空间 (G)",

TO_CHAR( ROUND ((D.AVAILB_BYTES - F.USED_BYTES) / D.AVAILB_BYTES * 100 ,

'999.99' ) AS " 当前使用比 (%)",

TO_CHAR( ROUND ((D.AVAILB_BYTES - F.USED_BYTES) / D.MAX_BYTES * 100 , 2 ),

'999.99' ) AS " 自增使用比 (%)",

ROUND (F.USED_BYTES, 2 ) AS " 当前空闲 (G)",

ROUND ((D.MAX_BYTES - (D.AVAILB_BYTES - F.USED_BYTES)), 2 ) AS " 自增后空闲 (G)",

ROUND (F.MAX_BYTES, 2 ) AS " 最大块 (M)"

FROM ( SELECT TABLESPACE_NAME,

ROUND ( SUM (BYTES) / ( 1024 * 1024 * 1024 ), 6 )USED_BYTES,

ROUND ( MAX (BYTES) / ( 1024 * 1024 * 1024 ), 6 )MAX_BYTES

FROM SYS.DBA_FREE_SPACE

GROUP BY TABLESPACE_NAME) F,

( SELECT DD.TABLESPACE_NAME,

ROUND ( SUM (DD.BYTES) / ( 1024 * 1024 * 1024 ), 6 )AVAILB_BYTES,

ROUND ( SUM ( DECODE (DD.MAXBYTES, 0 , DD.BYTES, DD.MAXBYTES)) /

( 1024 * 1024 * 1024 ),

6 ) MAX_BYTES

FROM SYS.DBA_DATA_FILES DD

GROUP BY DD.TABLESPACE_NAME) D

WHERE D.TABLESPACE_NAME = F.TABLESPACE_NAME

ORDER BY 4 DESC

with tj1
select a.TABLE_NAME,b.column_name,b.num_distinct,b.num_distinct/a.NUM_ROWS*100 选择性
from user_tables a , user_tab_columns b
where a.TABLE_NAME=b.TABLE_NAME
-- and a.table_name='TEST'
and b.num_distinct/a.NUM_ROWS*100>20
and a.NUM_ROWS!=0
group by a.TABLE_NAME,b.column_name,b.num_distinct,a.NUM_ROWS)
select distinct a.* from tj1 a ,user_ind_columns b
where a.TABLE_NAME=b.TABLE_NAME
and a.column_name not in (select column_name from user_ind_columns);
a.object_name 表名,
d.bytes / 1024 / 1024 表大小,
length(replace(b.sql_text, ',', ',,'))-length(b.sql_text)+1 列访问数，
count(c.column_name) 总列数,
a.filter_predicates 过滤条件，
'' ftext
FROM v$sql_plan a, v$sql b, user_tab_columns c, user_segments d
WHERE a.sql_id = b.sql_id
AND a.object_name = c.table_name
AND a.object_name = d.segment_name
AND a.options = 'FULL'
GROUP BY a.object_owner,
a.sql_id,
b.sql_text,
a.object_name,
a.filter_predicates,
b.pinned_total,
d.bytes; （前面两部分来自http://blog.itpub.net/21251711/viewspace-1102677/）--查询Oracle正在执行的sql语句及执行该语句的用户SELECT b.sid oracleID, b.username 登录Oracle用户名, b.serial#, spid 操作系统ID, 《 SQL Server 2008 查询性能优化》为你提供了处理查询性能所需要的工具。建立、维护数据库和数据库服务器可能是个困难的工作。当服务器的运行越来越慢时，这个工作就变得更加困难。来自用户的愤怒的电话以及站在你办公桌周围的管理人员都使你很不快活。在开发代码的同时，如果你花费时间和精力来开发一个性能故障排错的方法。那么你就能避免这种情况——至少可以快速而有效地做出反应。《 SQL Server 2008 查询性能优化》指出的性能要点之一是数据库随着用户和数据的日益增多而进行扩展的必要性。你需要理解性能低下的起因。以及识别并修复它们的方法。《 SQL Server 2008 查询性能优化》将帮助你：使用性能监视器、 SQL Trace以及动态管理视图和函数建立性能基线理解一般系统中发生瓶颈的地方。以及解决瓶颈的方法识别常见性能问题以及对其快速处理的方法实施修复甚至预防性能问题的T- SQL 最佳实践《 SQL Server 2008 查询性能优化》不是理论书籍，它的目的是帮助你避免数据库出现性能低下的状况，它还能帮助你保住你的工作。《 SQL Server 2008 查询性能优化》通过大量实例，详细介绍了 SQL Server数据库系统优化的各种方法和技巧。内容涵盖了数据库应用系统中各种性能瓶颈的表现形式及其发生的根源和解决方法，从硬件瓶颈到查询、索引设计以及数据库管理等，贯穿了数据库系统知识的各个方面。最后以一个实际的工作负载将所有技巧联系起来，并且提供了“宝典”式的最佳实践列表。《 SQL Server 2008 查询性能优化》适合于关心数据库应用系统性能的开发人员和数据库管理人员阅读。通过阅读《 SQL Server 2008 查询性能优化》，不仅可以学习到数据库性能管理的许多知识和技巧，还有助于养成良好的编程习惯，为实现高性能的数据库应用系统打下基础。第1章 SQL 查询性能调整 1 1.1 性能调整过程 2 1.1.1 核心过程 2 1.1.2 迭代过程 4 1.2 性能vs.价格 7 1.2.1 性能目标 7 1.2.2 “足够好”的调整 7 1.3 性能基线 8 1.4 工作的重点 9 1.5 SQL Server性能杀手 10 1.5.1 低质量的索引 10 1.5.2 不精确的统计 11 1.5.3 过多的阻塞和死锁 11 1.5.4 不基于数据集的操作 11 1.5.5 低质量的查询设计 12 1.5.6 低质量的数据库设计 12 1.5.7 过多的碎片 12 1.5.8 不可重用的执行计划 13 1.5.9 低质量的执行计划 13 1.5.10 频繁重编译计划 13 1.5.11 游标的错误使用 13 1.5.12 错误配置数据库日志 14 1.5.13 过多使用或者错误配置tempdb 14 1.6 小结 14 第2章系统性能分析 15 2.1 性能监视器工具 15 2.2 动态管理视图 17 2.3 硬件资源瓶颈 18 2.3.1 识别瓶颈 18 2.3.2 瓶颈解决方案 19 2.4 内存瓶颈分析 19 2.4.1 SQL Server内存管理 20 2.4.2 Available Bytes 23 2.4.3 Pages/sec和Page Faults/sec计数器 23 2.4.4 Buffer Cache Hit Ratio 24 2.4.5 Page Life Expectancy 24 2.4.6 Checkpoint Pages/sec 24 2.4.7 Lazy writes/sec 24 2.4.8 Memory Grants Pending 25 2.4.9 Target Server Memory(KB)和Total Server Memory(KB) 25 2.5 内存瓶颈解决方案 25 2.5.1 优化应用程序工作负载 26 2.5.2 为 SQL Server分配更多内存 27 2.5.3 增加系统内存 27 2.5.4 更换32位处理器为64位处理器 27 2.5.5 启用3GB进程空间 28 2.5.6 在32位 SQL Server中使用4GB以上内存 28 2.6 磁盘瓶颈分析 29 2.6.1 磁盘计数器 30 2.6.2 % Disk Time 30 2.6.3 Current Disk Queue Length 31 2.6.4 Disk Transfers/sec 31 2.6.5 Disk Bytes/sec 32 2.6.6 Avg. Disk Sec/Read和Avg. Disk Sec/Write 32 2.7 磁盘瓶颈解决方案 32 2.7.1 优化应用程序工作负载 33 2.7.2 使用更快的磁盘驱动器 33 2.7.3 使用一个RAID阵列 33 2.7.4 使用SAN系统 35 2.7.5 恰当地对齐磁盘 35 2.7.6 使用电池后备的控制器缓存 36 2.7.7 添加系统内存 36 2.7.8 创建多个文件和文件组 36 2.7.9 将表和索引放在不同的磁盘上 39 2.7.10 将日志文件保存到独立的物理磁盘 39 2.7.11 表的分区 40 2.8 处理器瓶颈分析 40 2.8.1 % Processor Time 41 2.8.2 % Privileged Time 41 2.8.3 Processor Queue Length 42 2.8.4 Context Switches/sec 42 2.8.5 Batch Requests/sec 42 2.8.6 SQL Compilations/sec 42 2.8.7 SQL Recompilations/sec 43 2.9 处理器瓶颈解决方案 43 2.9.1 优化应用程序工作负载 43 2.9.2 消除过多的编译/重编译 43 2.9.3 使用更多或更快的处理器 44 2.9.4 使用大的二级(L2)/三级(L3)缓存 44 2.9.5 运行更高效的控制器/驱动程序 44 2.9.6 不运行不必要的软件 45 2.10 网络瓶颈分析 45 2.10.1 Bytes Total/sec 45 2.10.2 % Net Utilization 46 2.11 网络瓶颈解决方案 46 2.11.1 优化应用程序工作负载 46 2.11.2 增加网络适配器 47 2.11.3 节制和避免中断 47 2.12 SQL Server总体性能 47 2.12.1 丢失索引 48 2.12.2 数据库阻塞 49 2.12.3 不可重用的执行计划 50 2.12.4 总体表现 50 2.13 创建一个基线 51 2.13.1 创建性能计数器的一个可重用列表 51 2.13.2 使用性能计数器列表创建一个计数器日志 54 2.13.3 最小化性能监视器开销 55 2.14 以基线为标准的系统状态分析 56 2.15 小结 57 第3章 SQL 查询性能分析 58 3.1 SQL Profiler工具 58 3.1.1 Profiler跟踪 59 3.1.2 事件 60 3.1.3 数据列 62 3.1.4 过滤器 64 3.1.5 跟踪模板 65 3.1.6 跟踪数据 65 3.2 跟踪的自动化 66 3.2.1 使用GUI捕捉跟踪 66 3.2.2 使用存储过程捕捉跟踪 67 3.3 结合跟踪和性能监视器输出 68 3.4 SQL Profiler建议 69 3.4.1 限制事件和数据列 69 3.4.2 丢弃性能分析所用的启动事件 70 3.4.3 限制跟踪输出大小 70 3.4.4 避免在线数据列排序 71 3.4.5 远程运行Profiler 71 3.4.6 限制使用某些事件 71 3.5 没有Profiler情况下的查询性能度量 71 3.6 开销较大的查询 72 3.6.1 识别开销较大的查询 73 3.6.2 识别运行缓慢的查询 77 3.7 执行计划 78 3.7.1 分析查询执行计划 80 3.7.2 识别执行计划中开销较大的步骤 82 3.7.3 分析索引有效性 83 3.7.4 分析连接有效性 84 3.7.5 实际执行计划vs.估算执行计划 88 3.7.6 计划缓存 89 3.8 查询开销 90 3.8.1 客户统计 90 3.8.2 执行时间 91 3.8.3 STATISTICS IO 92 3.9 小结 94 第4章索引分析 95 4.1 什么是索引 95 4.1.1 索引的好处 97 4.1.2 索引开销 98 4.2 索引设计建议 100 4.2.1 检查WHERE子句和连接条件列 100 4.2.2 使用窄索引 102 4.2.3 检查列的唯一性 103 4.2.4 检查列数据类型 106 4.2.5 考虑列顺序 107 4.2.6 考虑索引类型 109 4.3 聚簇索引 109 4.3.1 堆表 110 4.3.2 与非聚簇索引的关系 110 4.3.3 聚簇索引建议 112 4.4 非聚簇索引 117 4.4.1 非聚簇索引维护 117 4.4.2 定义书签查找 117 4.4.3 非聚簇索引建议 118 4.5 聚簇索引vs.非聚簇索引 118 4.5.1 聚簇索引相对于非聚簇索引的好处 119 4.5.2 非聚簇索引相对于聚簇索引的好处 120 4.6 高级索引技术 121 4.6.1 覆盖索引 122 4.6.2 索引交叉 124 4.6.3 索引连接 125 4.6.4 过滤索引 126 4.6.5 索引视图 128 4.6.6 索引压缩 132 4.7 特殊索引类型 134 4.7.1 全文索引 134 4.7.2 空间索引 135 4.7.3 XML 135 4.8 索引的附加特性 135 4.8.1 不同的列排序顺序 135 4.8.2 在计算列上的索引 136 4.8.3 BIT数据类型列上的索引 136 4.8.4 作为一个查询处理的CREATE INDEX语句 136 4.8.5 并行索引创建 136 4.8.6 在线索引创建 137 4.8.7 考虑数据库引擎调整顾问 137 4.9 小结 137 第5章数据库引擎调整顾问 139 5.1 数据库引擎调整顾问机制 139 5.2 数据库引擎调整顾问实例 143 5.2.1 调整一个查询 143 5.2.2 调整一个跟踪工作负载 146 5.3 数据库引擎调整顾问的局限性 148 5.4 小结 149 第6章书签查找分析 150 6.1 书签查找的目的 150 6.2 书签查找的缺点 152 6.3 分析书签查找的起因 153 6.4 解决书签查找 155 6.4.1 使用一个聚簇索引 155 6.4.2 使用一个覆盖索引 155 6.4.3 使用索引连接 158 6.5 小结 160 第7章统计分析 161 7.1 统计在查询优化中的角色 161 7.2 索引列上的统计 162 7.2.1 更新统计的好处 162 7.2.2 过时统计的缺点 164 7.3 在非索引列上的统计 165 7.3.1 在非索引列上统计的好处 166 7.3.2 丢失非索引列上的统计的缺点 169 7.4 分析统计 172 7.4.1 密度 174 7.4.2 多列索引上的统计 174 7.4.3 过滤索引上的统计 175 7.5 统计维护 176 7.5.1 自动维护 177 7.5.2 人工维护 179 7.5.3 统计维护状态 181 7.6 为查询分析统计的有效性 182 7.6.1 解决丢失统计问题 182 7.6.2 解决过时统计问题 184 7.7 建议 186 7.7.1 统计的向后兼容性 186 7.7.2 自动创建统计 186 7.7.3 自动更新统计 187 7.7.4 自动异步更新统计 189 7.7.5 收集统计的采样数量 189 7.8 小结 190 第8章碎片分析 191 8.1 碎片的成因 191 8.1.1 UPDATE语句引起的页面分割 193 8.1.2 INSERT语句引起的页面分割 196 8.2 碎片开销 197 8.3 分析碎片数量 200 8.4 碎片解决方案 204 8.4.1 卸载并重建索引 204 8.4.2 使用DROP_EXISTING子句重建索引 205 8.4.3 执行ALTER INDEX REBUILD语句 205 8.4.4 执行ALTER INDEX REORGANIZE语句 207 8.5 填充因子的重要性 209 8.6 自动维护 212 8.7 小结 217 第9章执行计划缓冲分析 218 9.1 执行计划生成 218 9.1.1 解析器 219 9.1.2 代数化器 220 9.1.3 优化 221 9.2 执行计划缓冲 227 9.3 执行计划组件 227 9.3.1 查询计划 227 9.3.2 执行上下文 227 9.4 执行计划的老化 228 9.5 分析执行计划缓冲 228 9.6 执行计划重用 229 9.6.1 即席工作负载 230 9.6.2 预定义工作负载 231 9.6.3 即席工作负载的计划可重用性 231 9.6.4 预定义工作负载的计划可重用性 239 9.7 查询计划Hash和查询 Hash 248 9.8 执行计划缓冲建议 251 9.8.1 明确地参数化查询的可变部分 252 9.8.2 使用存储过程实现业务功能 252 9.8.3 使用sp_execute sql 编程以避免存储过程维护 252 9.8.4 实现准备/执行模式以避免重传查询字符串 253 9.8.5 避免即席查询 253 9.8.6 对于动态查询 sp_execute sql 优于EXECUTE 253 9.8.7 小心地参数化查询的可变部分 254 9.8.8 不要允许查询中对象的隐含解析 254 9.9 小结 254 第10章存储过程重编译 256 10.1 重编译的好处和缺点 256 10.2 确认导致重编译的语句 258 10.3 分析重编译起因 260 10.3.1 架构或绑定变化 261 10.3.2 统计变化 261 10.3.3 延迟对象解析 264 10.3.4 SET选项变化 266 10.3.5 执行计划老化 266 10.3.6 显式调用sp_recompile 267 10.3.7 显式使用RECOMPILE子句 268 10.4 避免重编译 269 10.4.1 不要交替使用DDL和DML语句 270 10.4.2 避免统计变化引起的重编译 271 10.4.3 使用表变量 273 10.4.4 避免在存储过程中修改SET选项 275 10.4.5 使用OPTIMIZE FOR 查询提示 276 10.4.6 使用计划指南 277 10.5 小结 281 第11章查询设计分析 282 11.1 查询设计建议 282 11.2 在小结果集上操作 283 11.2.1 限制选择列表中的列数 283 11.2.2 使用高选择性的WHERE子句 284 11.3 有效地使用索引 284 11.3.1 避免不可参数化的搜索条件 285 11.3.2 避免WHERE子句列上的算术运算符 289 11.3.3 避免WHERE子句列上的函数 290 11.4 避免优化器提示 292 11.4.1 连接提示 293 11.4.2 索引提示 295 11.5 使用域和参照完整性 296 11.5.1 非空约束 297 11.5.2 声明参照完整性 299 11.6 避免资源密集型查询 301 11.6.1 避免数据类型转换 301 11.6.2 使用EXISTS代替COUNT(*)验证数据存在 303 11.6.3 使用UNION ALL代替UNION 304 11.6.4 为聚合和排序操作使用索引 305 11.6.5 避免在批查询中的局部变量 306 11.6.6 小心地命名存储过程 309 11.7 减少网络传输数量 311 11.7.1 同时执行多个查询 311 11.7.2 使用SET NOCOUNT 311 11.8 降低事务开销 312 11.8.1 减少日志开销 312 11.8.2 减少锁开销 314 11.9 小结 315 第12章阻塞分析 316 12.1 阻塞基础知识 316 12.2 理解阻塞 317 12.2.1 原子性 317 12.2.2 一致性 320 12.2.3 隔离性 320 12.2.4 持久性 321 12.3 数据库锁 321 12.3.1 锁粒度 322 12.3.2 锁升级 325 12.3.3 锁模式 326 12.3.4 锁兼容性 332 12.4 隔离级别 332 12.4.1 未提交读 333 12.4.2 已提交读 333 12.4.3 可重复读 335 12.4.4 可序列化(Serializable) 338 12.4.5 快照(Snapshot) 343 12.5 索引对锁的作用 343 12.5.1 非聚簇索引的作用 344 12.5.2 聚簇索引的作用 346 12.5.3 索引在可序列化隔离级别上的作用 346 12.6 捕捉阻塞信息 347 12.6.1 使用 SQL 捕捉阻塞信息 347 12.6.2 Profiler跟踪和被阻塞进程报告事件 349 12.7 阻塞解决方案 351 12.7.1 优化查询 352 12.7.2 降低隔离级别 352 12.7.3 分区争用的数据 353 12.7.4 争用数据上的覆盖索引 354 12.8 减少阻塞的建议 354 12.9 自动化侦测和收集阻塞信息 355 12.10 小结 359 第13章死锁分析 360 13.1 死锁基础知识 360 13.2 使用错误处理来捕捉死锁 361 13.3 死锁分析 362 13.3.1 收集死锁信息 362 13.3.2 分析死锁 364 13.4 避免死锁 368 13.4.1 按照相同的时间顺序访问资源 368 13.4.2 减少被访问资源的数量 369 13.4.3 最小化锁的争用 369 13.5 小结 370 第14章游标开销分析 372 14.1 游标基础知识 372 14.1.1 游标位置 373 14.1.2 游标并发性 374 14.1.3 游标类型 376 14.2 游标开销比较 378 14.2.1 游标位置的开销比较 378 14.2.2 游标并发性上的开销比较 380 14.2.3 在游标类型上的开销比较 381 14.3 默认结果集 383 14.3.1 好处 384 14.3.2 缺点 384 14.4 分析 SQL Server游标开销 386 14.5 游标建议 390 14.6 小结 392 第15章数据库工作负载优化 393 15.1 工作负载优化基础知识 393 15.2 工作负载优化步骤 394 15.3 捕捉工作负载 397 15.4 分析工作负载 399 15.5 识别开销最大的查询 400 15.6 确定开销最大的查询的基线资源使用 402 15.6.1 总体资源使用 402 15.6.2 详细资源使用 402 15.7 分析和优化外部因素 405 15.7.1 分析应用程序使用的批级别选项 405 15.7.2 分析统计有效性 406 15.7.3 分析碎片整理需求 406 15.8 分析开销最大的查询的内部行为 410 15.8.1 分析查询执行计划 410 15.8.2 识别执行计划中开销较大的步骤 412 15.8.3 分析处理策略的效率 412 15.9 优化代价最大的查询 412 15.9.1 修改现有索引 413 15.9.2 分析连接提示的应用 415 15.9.3 避免聚簇索引扫描操作 417 15.9.4 修改过程 418 15.10 分析对数据库工作负载的影响 420 15.11 迭代各个优化阶段 421 15.12 小结 424 第16章 SQL Server优化检查列表 425 16.1 数据库设计 425 16.1.1 平衡不足和过多的规范化 426 16.1.2 从实体完整性约束中得利 427 16.1.3 从域和参照完整性约束中得利 428 16.1.4 采用索引设计最佳实践 430 16.1.5 避免在存储过程名称中使用sp_前缀 431 16.1.6 最小化触发器的使用 431 16.2 查询设计 432 16.2.1 使用SET NOCOUNT ON命令 432 16.2.2 显式定义对象所有者 432 16.2.3 避免不可参数化的搜索条件 432 16.2.4 避免WHERE子句列上的算术运算符 433 16.2.5 避免优化器提示 434 16.2.6 远离嵌套视图 434 16.2.7 确保没有隐含的数据类型转换 435 16.2.8 最小化日志开销 435 16.2.9 采用重用执行计划的最佳实践 435 16.2.10 采用数据库事务最佳实践 436 16.2.11 消除或减少数据库游标开销 437 16.3 配置设置 437 16.3.1 Affinity Mask 437 16.3.2 内存配置选项 437 16.3.3 并行性开销阈值 438 16.3.4 最大并行度 438 16.3.5 优化即席工作负载 438 16.3.6 查询调控器开销限制 439 16.3.7 填充因子(%) 439 16.3.8 被阻塞过程阈值 439 16.3.9 数据库文件布局 439 16.3.10 数据库压缩 440 16.4 数据库管理 440 16.4.1 保持统计最新 440 16.4.2 保持最小数量的索引碎片数量 441 16.4.3 循环使用 SQL 错误日志文件 441 16.4.4 避免像AUTO_CLOSE或AUTO_SHRINK这样的自动化数据库功能 441 16.4.5 最小化 SQL 跟踪开销 442 16.5 数据库备份 442 16.5.1 增量和事务日志备份频率 442 16.5.2 备份分布 443 16.5.3 备份压缩 444 16.6 小结 444 作者：（美国）弗里奇（Grant Fritchey）（美国）达姆（Sajal Dam）译者：姚军弗里奇（Grant Fritchey），为FM Global(一家行业领先的工程和保险公司)工作，担任首席DBA。他使用各种语言(如VB、C#和Java等)开发了许多大规模的应用程序，从版本6．0开始使用 SQL Server。他曾经为3家失败的．com公司担任财务和咨询工作，还是Dissecting SQL Server Execution Plans一书的作者。达姆（Sajal Dam），拥有位于印度班加罗尔的印度理工学院的计算机科学技术硕士学位，并且使用微软技术超过16年。他已经在设计数据库应用和管理软件开发方面拥有了很广泛的背景。Saial还在从前端网页到后端数据库的基于微软技术的应用程序上，具备了故障定位和性能优化的大量经验。他有许多为《财富》500强公司设计可伸缩的数据库解决方案和最大化数据库环境性能的经验。

阿⾥巴巴⼤数据之路阿⾥巴巴⼤数据之路——数据技术篇数据技术篇⼀、整体架构⼀、整体架构　　　　从下⾄上依次分为数据采集层、数据计算层、数据服务层、数据应⽤层　　数据采集层：以DataX为代表的数据同步⼯具和同步中⼼　　数据计算层：以MaxComputer为代表的离线数据存储和计算平台　　数据服务层：以RDS为代表的数据库服务（接⼝或者视图形式的数据服务）　　数据应⽤层：包含流量分析平台等数据应⽤⼯具⼆、数据采集（离线数据同步）⼆、数据采集（离线数据同步）　　数据采集主要分为⽇志采集和数据库采集。⽇志采集暂略（参考书籍原⽂）。我们主要运⽤的是数据库采集（数据库同步）。　　通常情况下，我们需要规定原业务系统表增加两个字段：创建时间、更新时间（或者⾄少⼀个字段：更新时间）　　数据同步主要可以分为三⼤类：直连同步、数据⽂件同步、数据库⽇志解析同步　　1.直连同步　　　　通过规范好的接⼝和动态连接库的⽅式直接连接业务库，例如通过ODBC/JDBC进⾏直连　　　　当然直接连接业务库的话会对业务库产⽣较⼤压⼒，如果有主备策略可以从备库进⾏抽取，此⽅式不适合直接从业务库到数仓的情景　　2.数据⽂件同步　　　　从源系统⽣成数据⽂本⽂件，利⽤FTP等传输⽅式传输⾄⽬标系统，完成数据的同步　　　　为了防⽌丢包等情况，⼀般会附加⼀个校验⽂件，校验⽂件包含数据量、⽂件⼤⼩等信息　　　　为了安全起见还可以加密压缩传输，到⽬标库再解压解密，提⾼安全性　　3.数据库⽇志同步　　　　主流数据库都⽀持⽇志⽂件进⾏数据恢复（⽇志信息丰富，格式稳定），例如Oracle的归档⽇志　　（数据库相关⽇志介绍，参考：）　　 4.阿⾥数据仓库同步⽅式　　　　1）批量数据同步　　　　要实现各种各样数据源与数仓的数据同步，需要实现数据的统⼀，统⼀的⽅式是将所有数据类型都转化为中间状态，也就是字符串类型。以此来实现数据格式的统⼀。　　　　产品——阿⾥DataX：多⽅向⾼⾃由度异构数据交换服务产品，产品解决的主要问题：实现跨平台的、跨数据库、不同系统之间的数据同步及交互。　　　　产品简介：　　　　开源地址：　　　　更多的介绍将会通过新开随笔进⾏介绍！（当然还有其他主流的数据同步⼯具例如kettle等！）　　　　2）实时数据同步　　　　实时数据同步强调的是实时性，基本原理是通过数据库的⽇志（My SQL 的bin-log，Oracle的归档⽇志等）实现数据的增量同步传输。　　　　产品——阿⾥TimeTunnel（简称TT）。TT产品本质是⼀个⽣产者、消费者模型的消息中间件　　　　3）常见问题　　　　　　1. 增量数据与全量数据的合并　　　　　　　　主要的场景是数据同步中周期全量同步，对应的解决⽅案是每次只同步变更的数据，然后和上⼀周期合并，形成最新的全量数据（选择此⽅案的原因是绝⼤多数⼤数据平台不⽀持update操作）　　　　　　　　具体的⽅案主要有union的联合操作（可以通过⽣成增量中间表detal）与阿⾥主推的全外连接full outer join+全量覆盖insert overwrite的形式。实例参考如下： SQL 的Join语法有很多， inner join(等值连接) 只返回两个表中联结字段相等的⾏， left join(左联接) 返回包括左表中的所有记录和右表中联结字段相等的记录， right join(右联接) 返回包括右表中的所有记录和左表中联结字段相等的记录，假设我们有两张表。Table A 是左边的表。Table B 是右边的表。其各有四条记录，其中有两条记录name是相同的，如下所⽰： A表 id name 1 Pirate 2 Monkey 3 Ninja 4 Spaghetti B表 id name 1 Rutabaga 2 Pirate 3 Darth Vade 4 Ninja 让我们看看不同JOIN的不同。 FULL [OUTER] JOIN (1) SELECT * FROM TableA FULL OUTER JOIN TableB ON TableA.name = TableB.name TableA.name = TableB.name 的情况，A和B的交集有两条数据，那么 FULL OUTER JOIN的结果集，应该是2+2+2=6条，即上⾯的交集，再加剩下的四条数据，没有匹配，以null补全。结果集 (TableA.) (TableB.) id name id name 1 Pirate 2 Pirate 2 Monkey null null 3 Ninja 4 Ninja 4 Spaghetti null null null null 1 Rutabag

LINQPad 7LINQPad不仅适用于LINQ 查询，还适用于任何C#/F#/VB表达式、语句块或程序。结束那些使源文件夹混乱的数百个Visual Studio Console项目，并加入LINQPad脚本编写者和增量开发人员的革命。使用可立即测试任何C#/F#/VB片段或程序，在LINQ（或 SQL ）中查询数据库—— SQL /Azure、Oracle、 SQL ite、Postgres和My SQL ，享受丰富的输出格式、可选的自动完成和集成调试，使用您最喜欢的.NET语言编写脚本和自动化，LINQPad 7面向.NET 6、.NET 5和.NET Core 3.1。您的查询可以引用面向这些运行时（以及.NET Standard）的程序集。

针对数据库的启动和关闭、控制文件与数据库初始化、参数及参数文件、数据字典、内存管理、Buffer Cache与Shared Pool原理、重做、回滚与撤销、等待事件、性能诊断与 SQL 优化等几大Oracle热点主题，本书从基础知识入手，深入研究相关技术，并结合性能调整及丰富的诊断案例，力图将Oracle知识全面、系统、深入地展现给读者。　　本书给出了大量取自实际工作现场的实例，在分析实例的过程中，兼顾深度与广度，不仅对实际问题的现象、产生原因和相关的原理进行了深入浅出的讲解，更主要的是，结合实际应用环境，提供了一系列解决问题的思路和方法，包括详细的操作步骤，具有很强的实战性和可操作性，适用于具备一定数据库基础、打算深入学习Oracle技术的数据库从业人员，尤其适用于入门、进阶以及希望深入研究Oracle技术的数据库管理人员。第1章　数据库的启动和关闭　1 1.1　数据库的启动　1 1.1.1　启动数据库到NOMOUNT状态的过程　2 1.1.2　启动数据库到MOUNT状态　18 1.1.3　启动数据库OPEN阶段　26 1.2　数据库的访问　37 1.2.1　客户端的TNSNAMES.ORA文件配置　37 1.2.2　服务器端的监听器文件listener.ora配置　39 1.2.3　通过不同服务器名对数据库的访问　41 1.2.4　动态监听器注册服务　42 1.3　数据库的关闭　46 1.3.1　数据库关闭的步骤　46 1.3.2　几种关闭方式的对比　48 第2章　控制文件与数据库初始化　51 2.1　控制文件的内容　51 2.2　SCN　53 2.2.1　SCN的定义　53 2.2.2　SCN的获取方式　53 2.2.3　SCN的进一步说明　54 2.3　检查点(Checkpoint)　57 2.3.1　检查点(Checkpoint)的工作原理　57 2.3.2　常规检查点与增量检查点　59 2.3.3　LOG_CHECKPOINT_TO_ALERT参数　63 2.3.4　控制文件与数据文件头信息　64 2.3.5　数据库的启动验证　66 2.3.6　使用备份的控制文件　70 2.3.7　FAST_START_MTTR_TARGET　71 2.3.8　关于检查点执行的案例　74 2.3.9　Oracle 10g自动检查点调整　75 2.3.10　检查点信息及恢复起点　78 2.3.11　正常关闭数据库的状况　78 2.3.12　数据库异常关闭的情况　80 2.3.13　数据库并行恢复案例一则　82 2.3.14　判断一个死事务的恢复进度　85 2.4　数据库的初始化　86 2.4.1　bootstrap$及数据库初始化过程　86 2.4.2　bootstrap$的定位　88 2.4.3　Oracle中独一无二的Cache对象　89 2.4.4　Oracle数据库的引导　91 2.4.5　系统对象与bootstrap$　92 2.4.6　bootstrap$的重要性　94 2.4.7　BBED工具的简要介绍　95 2.4.8　坏块的处理与恢复　97 第3章　参数及参数文件　103 3.1　初始化参数的分类　103 3.1.1　推导参数(Derived Parameters)　103 3.1.2　操作系统依赖参数　104 3.1.3　可变参数　104 3.1.4　初始化参数的获取　105 3.2　参数文件　107 3.2.1　PFILE和SPFILE　108 3.2.2　获取参数的视图　110 3.2.3　SPFILE的创建　111 3.2.4　SPFILE的搜索顺序　112 3.2.5　使用PFILE/SPFILE启动数据库　112 3.2.6　修改参数　113 3.2.7　解决SPFILE参数修改错误　118 3.2.8　重置SPFILE中设置的参数　120 3.2.9　判断是否使用了SPFILE　120 3.2.10　SPFILE的备份与恢复　121 3.2.11　Oracle 11g参数文件恢复　127 3.2.12　如何设置Events事件　128 3.2.13　导出SPFILE文件　129 3.3　诊断案例之一：参数文件　131 3.3.1　登录系统检查告警日志文件　131 3.3.2　尝试重新启动数据库　132 3.3.3　检查数据文件　132 3.3.4　MOUNT数据库，检查系统参数　133 3.3.5　检查参数文件　133 3.3.6　再次检查alert文件　134 3.3.7　修正PFILE　135 3.3.8　启动数据库　135 3.4　诊断案例之二：RAC环境参数文件　135 3.4.1　数据库资源异常　135 3.4.2　问题的发现　136 3.4.3　参数文件问题的解决　137

前面总结了Spark SQL 增量查询 Hudi表和Hive 增量查询 Hudi表。最近项目上也有Flink SQL 增量查询 Hudi表的需求，正好学习总结一下。地址：https://hudi.apache.org/cn/docs/querying_data#incremental-query 用show_commits看一下有哪些commits（这里查询用的是Hudi的master，因为show_commits是在0.11.0版本开始支持的，也可以通过使用hadoop命令查看.hoodie文件夹下的.commit文

使用powerdesigner不仅能够为我们生成建表语句，还能够比对两个pdm文件的差异，生成增量的 sql 语句，可谓非常强大。假设有一份pdm文件A.pdm，基于A修改的B.pdm 为A生成apm文件，右键 -&gt; save as -&gt; 选择apm文件打开B，Database -&gt; Apply model changes to database… -&gt; 填写...

假设现在有两个表，stg_table和ods_table，两者字段一模一样（建表语句如下）。我们现在需要将stg表中的数据增量插入到ods中去。 create table stg_table(col1 varchar(5),col2 int,col3 int); create table ods_table like stg_table; insert into stg_table values ('a',1,1),('c',3,3); insert into ods_table values ('a',1

ALTER TABLE 表明 ADD 需要加的字段类型 ALTER TABLE table_name ADD column_name datatype alter table 表名 modify (字段名字段类型长度和字段类型); alter table user modify name varchar(40); –1.新建clob类型的字段 alter table DC_DOCUMENT_COLLECTION add DOC_DESC_temp clob; –2.把原字段的值插入到新建字段中

Hive SQL 和Spark SQL 都支持使用left semi join来优化in、exists类型的子查询。这种优化方式可以将子查询转化为join操作，从而提高查询效率。具体来说，left semi join会将左表和右表进行join操作，但只返回左表中存在于右表中的记录。这种方式可以避免in、exists类型的子查询中的重复计算，从而提高查询效率。需要注意的是，left semi join只能用于判断是否存在，不能返回右表的任何信息。因此，在使用left semi join进行优化时，需要根据具体情况选择合适的字段进行join操作。总之，使用left semi join来优化in、exists类型的子查询可以提高查询效率，但需要根据具体情况选择合适的字段进行join操作。