GOPS 全球运维大会由高效运维社区(GreatOPS)和 DevOps 时代社区联合主办,指导单位为 DAOPS 基金会、开放运维联盟(OOPSA),GOPS 大会是国内第一个运维行业大会,面向互联网、金融、通信及传统行业广大运维技术人员,旨在传播先进技术思想和理念,分享业内最佳实践。
迄今为止,GOPS 已经举行了二十三次,大会参会嘉宾累计突破8万人次,国内每一站均为本地区最大规模的高端运维盛会,满意度和推荐度高达97%以上。
第二十四届 GOPS 全球运维大会暨研运数智化技术峰会·上海站将于2024年10月18日-19日在上海中庚聚龙酒店召开。
大会将为期2天,侧重大模型、DevOps、SRE、AIOps、BizDevOps、云原生及安全等热门技术领域。特设了如大模型 + 运维/研发测试、银行/证券数字化转型、平台工程、DevOps/AIOps 最佳实践、互联网名企等特色专场。
GOPS 主要面向运维行业的中高端技术人员,包括运维、开发、测试、架构师等群体。目的在于帮助IT技术从业者系统学习了解相关知识体系,让创新技术推动社会进步。
您将会看到国内外知名企业的相关技术案例,也能与国内顶尖的技术专家探讨技术实践,使企业可以根据最佳实践确定自己的选型方案,并提前预估相关的风险和收益,实现技术落地。
Twitter
Linkedin
我在 @百格活动 发现一个不错的活动#第24届 GOPS 全球运维大会暨研运数智化技术峰会 · 上海站#,分享给大家
演讲主题:
全新升级!从 DevOps 到 BizDevOps,业技融合重塑数字化转型核心能力
议题简介:
介绍中国信通院XOps标准体系的最新发展态势,包括最新标准化要求、国际国内标准建设情况、最新落地案例、相关技术趋势等。重磅发布全新升级的中国信通院BizDevOps标准及评估体系,全面覆盖新时代企业对业务、研发、运营等领域转型的新需求。
个人简介:
牛晓玲,DevOps 标准工作组组长,DevOps 国际标准编辑人。长期从事云计算研究的相关工作,包括云服务业务功能测试以及运维管理系统审查等相关工作。参与编写《云计算服务协议参考框架》、《对象存储》、《云数据库》、《研发运营一体化能力成熟度模型》系列标准、《云计算运维智能化通用评估方法》等多个云服务评估方法标准20余项。
演讲主题:
业务保障与 IT 资源投入的平衡之道:FinOps下的容量管理
议题简介:
随着数字化转型的快速发展,各项 IT 资源持续投入,如何平衡 IT 资源投入与成效之间的问题日渐凸显。这一主题中,我们将深入剖析金融行业如何在快速变化的市场环境中,通过创新的 FinOps 实践实现业务需求与 IT 投入的有效平衡,实现业务连续性保障能力和资源利用率的共同提升。容量管理是 FinOps 的核心,它不仅仅是关于资源的分配,更是关于业务连续性和成本效率的智慧融合。通过构建全生命周期的容量管理体系,精准预测业务需求,通过实时监控和智能分析,动态调整 IT 容量,以应对市场的瞬息万变。同时,通过优化资源利用率,我们能够将 IT 部门从单纯的成本中心转变为驱动业务发展的战略伙伴。
演讲提纲:
1、FINOPS 背景概述
2、以精细化容量管理助力 FINOPS
3、精细化容量管理体系建设情况
4、系统稳定性保障体系介绍和 FINOPS 建设展望
听众收益:
1、了解 FINOPS 背景下精细化资源管理的要求和容量管理目标
2、了解精细化容量管理体系建设方法和实践案例
个人简介:
姜婷婷, 国泰君安数据中心总经理助理,具有近10年证券行业IT测试与运维经历,拥有丰富的实践经验。
演讲主题:
软件交付价值观:高质效交付
主题简介:
软件交付显然应该追求高质量与高效率,然而怎样算高质量?高效率又包括哪些方面?该如何实现高质量和高效率的交付?本演讲给出详细介绍。
演讲提纲:
1)软件开发的整体目标
2)确定需求:有效率地找到有效的需求
3)从确定需求到实现需求
4)实现需求:效率与质量构成的四个象限
5)软件交付过程的优化:为上述四个象限做出贡献
听众收益:
理解软件交付过程的优化目标,以及优化的主要思路。
个人简介:
董越,独立 DevOps 咨询师、《研发运营一体化(DevOps)能力成熟度模型》核心专家。
董越曾任阿里巴巴集团研发效能事业部架构师、高级产品专家等职,从事Aone/云效 DevOps 产品设计、阿里云专有云集成与发布解决方案设计等工作。
董越是多本技术畅销书作者与译者。著有《高质效交付:软件集成、测试与发布精进之道》、《软件交付通识》、《未雨绸缪:理解软件配置管理》等,译有《DevOps实践指南(第二版)》、《高效能团队模式:支持软件快速交付的组织架构》等。
董越当前主要从事企业级 DevOps 体系建设的咨询工作,帮助华为、中信银行、中国移动等众多企业提升软件研发交付效能。
演讲主题:
工行 BizDevOps 体系建设的探索与实践
议题简介:
介绍工行软件开发中心基于 BizDevOps 标准的体系建设的探索与实践,主要介绍在企业内如何探索业务运营的工作,并基于自研平台构建企业级的支撑能力。
演讲提纲:
1、BizDevOps 的背景和理解
2、工行 BizDevOps 体系的探索实践
3、BizDevOps 展望
听众收益:
1、了解国有商业银行的 BizDevOps 探索路程
2、探讨如何在企业内部落地 BizDevOps
个人简介:
程相,DevOps 与研发效能专家,在大型银行从事金融科技工作十多年,有丰富的 DevOps 实践和研发管理经验,擅长业务研发、质量管控和研发支撑体系等领域。曾主导工行智能投顾项目高分通过信通院 DevOps 认证,多次在业界大会公开分享并担任专场出品人,作为联合作者出版书籍《研发效能实践指南》。
演讲主题:
全景运维地图,AI 时代的运维技术创新与实践
议题简介:
“人工智能+”的概念正以前所未有的速度推动着产业生态重塑。随着行业数智化水平不断提升,网络规模急剧扩张,业务日益复杂多变,企业用户对网络运维的诉求也达到全新高度。如何最大效能发挥运维大模型的优势?如何实现全景的可视运维、按需的资源调度、以及智能的排障优化?新华三邀您探讨AI时代的运维技术创新与实践。
演讲提纲:
1.运维在 AI 时代遇到诸多挑战,企业数智转型对网络运维的诉求再次提升;
2.大模型为运维注入了新智慧,提高了运维的效率和效果。如何最大效能发挥运维大模型的优势?构建全景运维地图将面临哪些技术挑战?
3.展望未来,坚定智能运维赛道下的AIGC落地
听众收益:
1.了解企业数智转型对网络运维的高阶诉求;
2.了解全景运维地图的相关技术与实践、以及与大模型的结合所带来的优势;
3.AI 时代智能运维发展新思路,完善和提高智能运维的水平;
个人简介:
敖襄桥,现任新华三集团智能管理与运维产品线总经理,是新华三智能运维领域创新实践的领军人物,致力于通过不断的技术和产品升级,提升新华三在智能运维领域的核心竞争力。敖襄桥先生拥有超过20年 ICT 领域深耕经验,曾主导多款新华三以太网交换机的产品开发工作,并担任新华三 AI 研究院院长,支撑了新华三各产品 AI in ALL 理念的落地实践。在智能运维领域,敖襄桥带领团队在国内率先展开自智网络、全域统一运维、运维大模型等关键技术攻关,全面主导新华三在智能运维领域的创新进步。凭借对客户需求的深入理解以及卓越的技术实力,其带领研发的 AD-NET 应用驱动网络解决方案以及 U-Center 统一运维平台在市场占有率上实现了连续多年排名第一,为百行百业的数智化转型提供了有力的支持。
演讲主题:
研发协同效率提升5倍以上:多云多源数据库管理最佳实践
议题简介:
多种数据库组合、混合云、多云已经成为企业 IT 架构发展的趋势,但是也带来了更复杂的数据库管理挑战,包括各种国产数据库、开源数据库、商业数据库、数据仓库等等,本次主题讲分享 NineData 在多云多源方面的技术思考与最佳实践,包括如何实现高性能的多种数据库之间的迁移、同步,平台化 DevOps 理念应用到数据库领域,数据库与 AI 大模型结合,提升研发协同效率5倍以上,让数据库更安全、更高效。
演讲提纲:
1. 数据库选型分类
2. 数据复制技术原理与实践
3. 数据库 DevOps 技术原理与实践
4. NineData 客户最佳实践
5. 未来展望
听众收益:
1. 了解云计算与数据库发展趋势
2. 掌握数据复制技术应用场景与技术原理
3. 掌握数据库 DevOps 应用场景与技术原理
4. 了解数据库 DevOps 与 AI 大模型结合场景
个人简介:
叶正盛 ,NineData 创始人&CEO,资深数据库与云计算领域专家,曾担任阿里云数据库产品管理与解决方案部总经理,阿里云技术架构组与产品决策委员会核心成员。 帮助阿里云构建了云原生数据库产品体系,并成功进入 Gartner DBMS 魔力象限全球领导者位置,实现中国基础软件的重大突破。 阿里巴巴去 IOE、异地多活、云计算多次技术变革的核心技术专家。首创了全球领先的云原生数据传输、数据管理、数据库备份、数据库自动驾驶服务等多款云计算数据库产品。
演讲主题:
大模型技术研究与场景落地
议题简介:
为应对人工智能规模化应用存在的挑战,从AI研发管理运营全生命周期管理出发,建立技术领先、自主可控、全行统一、功能完备的企业级人工智能技术平台,解决“门槛高、共享难、评价难”三大痛点,更好支撑人工智能规模化应用。
演讲提纲:
1、从“+AI”到“AI+”
2、金融大模型全域生态
3、大模型典型场景示例
4、大模型赋能业务创新
听众收益:
1、了解大模型在金融行业发展现状,应用场景及未来发展趋势
2、探索金融行业垂直领域大模型建设思路
个人简介:
朱波,从事大数据与人工智能,深度参与工商银行大数据体系建设和分行数字化转型,多次荣获人民银行科技进步奖
演讲主题:
程序血缘分析在软件工程中的应用
议题简介:
从当前软件开发过程中的痛点出发介绍了程序血缘分析的定义和其在软件工程中的重要作用,程序血缘分析能够帮助我们理解复杂软件系统的内部流程和结构,预测和评估程序变动的影响范围,降低改造风险,同时通过具体的应用案例介绍其在程序链路分析、辅助设计、存量资产治理和运维监控等领域的具体应用和价值。
听众收益:
1、了解程序血缘分析在软件研发运营领域的发展现状
2、了解程序血缘分析的主流技术架构与软件工程研发管理与运维领域的场景案例
3、共同学习探讨程序血缘分析未来的发展方向与建设思路
个人简介:
敬请期待
演讲主题:
工商银行智能研发探索与实践
议题简介:
从内部落地及成效角度出发,介绍工商银行在智能研发领域的实践,内容涵盖智能研发的发展历程、建设策略、能力体系、面临的挑战及解决方案、落地成效、未来的发展规划等。
演讲提纲:
1、工商银行智能研发体系的发展历程
2、工商银行智能研发的建设思路与能力体系
3、落地过程中的挑战与优化方案
4、智能研发的落地成效
5、未来展望
听众收益:
1、了解智能研发体系能在商业银行的发展及规划。
2、探讨智能研发在哪些场景下可以为企业带来价值。
个人简介:
王童童,工商银行智能研发技术专家,拥有丰富的智能研发实践经验,在研发领域模型微调、RAG 等方面有大量技术积累,目前主要负工行银行智能研发助手的能力建设及落地,致力于通过大模型变革软件的研发范式。
演讲主题:
大模型在超大规模数据库运维中的应用与探索
议题简介:
面对数据库日益复杂的运维需求,传统的数据库运维方法已经难以满足需求。近年来,大模型技术的发展为数据库运维带来了新的机遇。本演讲探讨当前数据库运维遇到的难题,提出解决问题的方法,围绕大模型在数据库运维中应用场景展开,介绍中国银联在超大规模数据库运维中大模型的应用场景和取得效果,探讨大模型在数据库运维发展趋势。
演讲提纲:
1、当前数据库运维面临难题
2、解决数据库运维难题方案探索
3、大模型在数据库运维中应用场景和效果
4、大模型在数据库运维中展望
听众收益:
1、探讨大规模数据库运维遇到的困难
2、交流大模型在数据库运维中的应用场景和效果
3、探讨数据库智能化运维未来发展趋势
个人简介:
梁克会,高级工程师,拥有13年数据库管理经验。管理的数据库容器规模数万,在数据库架构设计、性能优化与故障恢复以及数据库云平台建设、智能化运维方面具有深厚的专业知识和实践经验。
演讲主题:
商业银行自主研发 DevOps 在线协同平台实践
议题简介:
基于 DevOps 建立一个鼓励合作、沟通和信任的团队文化,打破开发和运维之间的“高墙”,促进跨职能团队的协作的理念。进行自主研发打造一个集需求管理、版本管理、环境管理,自动化交付与一体的线上化平台,旨在打通开发、测试、生产等各部门之间的壁垒,建立一体化的管理支撑平台和高效的协作流程,构建统一的企业级技术与管理标准,通过操作自动化提高软件生产效率,缩短软件发布周期;通过自助化工具释放现有人力,降低现有人员瓶颈的带来的压力。
演讲提纲:
1、聚焦版本管控
2、通过平台赋能提升研发效率
3、DevOps 平台建设的后续展望
听众收益:
1、商业银行研发部门版本管控方案
2、平台赋能研发人员的线上自动化交付
3、共同学习探索 DevOps 一体化平台的建设思路
个人简介:
陈登辉,超过10年的软件研发经验,我深度参与了 DevOps 一体化平台的构建,从概念到落地的全过程,见证了团队与技术的共同成长。在项目中,我主要负责用户故事的设计,确保产品功能贴近用户需求,同时,精通组件脚本的开发,有效提升了平台的自动化与效率。此外,我还承担了对外培训的任务,让平台在行内快速推广,实现平台工具赋能,提高整体研发团队的研发效率。
演讲主题:
基于数据驱动的系统稳定性保障体系的研究与实践
议题简介:
为了及时感知应用系统运行能力和抗风险水平,提升系统故障预防及风险处理能力,去年我司成功发布了《国泰君安证券数据中心技术运营标准》,并成为业内首家获得中国信息通信研究院企业内部 DevOps 标准符合度认证的企业。今年我司创新推出了“君巡智检平台”,加速推进高效、敏捷、自主可控的数智化运维建设,解决系统稳定性评估周期长、优化周期长等问题。该平台构建了一个以数据为驱动、精确度量、持续优化与改进的运维管理闭环,有效提升了系统运维质量和技术运营能力。
1. 建设底座:场景、服务与数据驱动三位一体的运维体系;
2. 设计方案:多元化数据整合、可量化评估指标体系、灵活调度编排;
3. 实现效果:运维标准化与效能度量的深度融合,不仅促进运维管理平台之间的互联互通,还持续提升了运维的质量和效能。
演讲提纲:
1、三位一体运维体系基座:场景、服务与数据驱动的全面保障
2、君巡智检平台应用设计与展望
听众收益:
1、了解数据驱动的系统稳定性保障体系构建方法;
2、了解君巡智检平台的应用案例,为企业提升系统运维质量与技术运营能力提供实践思路。
个人简介:
胡霞,负责君巡智检平台建设,拥有丰富 IT 运维开发经验,专注运维自动化、系统监控、故障诊断与应急响应等技术领域,致力于通过技术创新提升系统稳定性和运维效率,全面推进系统稳定性保障体系规划建设和落地。
演讲主题:
AIOPS 语义级日志异常检测在证券行业的探索和实践
议题简介:
随着证券行业信息化水平的逐步提升,安全生产保障能力已成为各金融机构科技能力建设工作的重中之重。经过行业多年的探索与实践,以数据为基础、场景为导向、算法为支撑的智能运维技术已逐步成为业务运维的新方向,在众多场景中,又以提升安全生产保障能力的智能预警技术尤为受到关注,其中日志作为公认的运维基本观测项(指标、日志、调用链)中信息含量最大的一种观测项,已经成为智能预警场景下最具挑战和最具研究价值的基本研究问题之一。本次演讲主题,与大家深入探讨并分享海通证券在日志异常检测领域的一次创新尝试——语义级日志异常检测技术的运维实践。
演讲提纲:
1、日志异常检测在证券行业现状和痛点
2、日志异常检测的方案和实践结果
3、日志异常检测的展望
听众收益:
1、了解日志异常检测在证券行业的建设情况
2、共同学习探索行业,基于日志的异常检测思路
个人简介:
李进武,资深研发高级工程师,拥有10年金融行业开发运维工作经验,擅长架构设计和系统落地,目前负责海通证券一体化 IT 运维管理平台的开发管理工作。
演讲主题:
申万宏源在交付安全的探索和实践
议题简介:
金融行业信息化程度不断提高,对金融业改革、发展和壮大发挥了重要的促进作用。同时,金融业对信息技术的依赖程度越来越大,信息安全保障工作的难度不断加大,互联网应用又进一步加大了信息安全风险的扩散效应。如何提升交付安全, 将安全嵌入到交付各个环节, 提前暴露风险, 实现系统迭代安全交付。本次主题围绕申万宏源在交付安全上的方案, 重点阐述如何落地和实现。
演讲提纲:
1、交付安全的背景概述
2、交付安全的落地和实践
3、下一步的工作展望
听众收益:
1、了解金融行业在交付安全上的一些要求和未来发展趋势
2、了解申万宏源在交付安全上的建设思路和实践方案
3、共同学习探索交付安全的下一步建设方向
个人简介:
吴 柯,2022年加入申万宏源证券质量效能部,主要从事 DevOps 平台研发工作。2023年与业务研发团队一起通过了信通院研发运营一体化能力成熟度模型持续交付和持续测试三级认证以及安全及风险管理2级。
演讲主题:
基础设施 FinOps 成本运营体系实践
议题简介:
介绍华泰证券基础设施(云、网、数据中心)领域的 FinOps 成本管理实践。首先介绍华泰证券基础设施现状:华泰证券基础设施现状、基础设施管理整体框架。之后重点介绍华泰基础设施成本分摊模型:如何实现对所有基础设施全面准确梳理、基础设施成本分摊机制、基础设施成本面向应用和业务分层下钻穿透机制、基础设施分摊全面性和准确性如何衡量。然后做华泰证券成本运营机制介绍:基础设施成本运营落实费用权责、基础设施成本运营如何与财务打通并融入公司日常运营管理中、其他成本优化实践(如何将成本运营贯穿至资源全生命周期管理等)、如何利用可视化平台有效支撑 FinOps 成本运营落地。最后从 FinOps 框架回望成本管理:结合 FinOps 理念探讨发展方向与趋势。
演讲提纲:
1、华泰证券基础设施现状
2、华泰基础设施成本分摊模型
3、华泰证券成本运营机制介绍
4、从 FinOps 框架回望成本管理
听众收益:
1、了解华泰基础设施领域全面成本分摊实践经验
2、了解华泰基础设施领域成本运营实践经验
3、从 FinOps 框架角度审视自身 IT 资源整体运营水平
个人简介:
刘奥,华泰证券信息技术部资深云网专家,信通院 IT 基础设施资源运营能力成熟度模型组长单位参编专家,具备丰富的基础设施管理运营、SaaS 服务产品设计推广经验,熟悉多类基础设施成本账单或定价体系,具备丰富的公有云、私有云和其他 IT 基础设施资源营运体系研究与成本管控和优化经验。
演讲主题:
探索 IT 现代化建设中质量保证与测试的创新路径
议题简介:
1. 测试领域标准化建设现状:DevOps、持续测试、质量保证、质量管理等领域在近年取得了标准化工作的成果;
2. 测试专项能力建设新方向:随着软件开发的复杂度和多样性增加,测试专项能力建设应聚焦于智能化测试工具的应用、安全测试的深化、性能测试的精细化以及对新兴技术如人工智能、物联网等的测试能力拓展,以满足不断变化的软件质量保障需求;
3. 持续测试评估新观察:持续测试在加速软件交付和提升质量方面发挥着重要作用,但评估其效果时发现,部分企业在实施过程中存在测试覆盖不全面、反馈机制不及时、与开发团队协作不紧密等问题,需要从测试策略优化、工具链完善、团队协作加强等方面进行改进;
4. 2025质量领域技术趋势发展:2025年质量领域技术趋势呈现“智动化测试”与持续测试的深度融合、测试和CI/CD的进一步普及、基于AI的IT风险评估和缺陷预防技术的广泛应用、以及对软件全生命周期质量数据的深度挖掘与分析等特点,这些趋势将推动软件质量保障向更高效、更智能、更全面的方向发展。
个人简介:
白瀚雄,中国信息通信研究院,中国信通院云大所 审计与治理部业务主管,负责重点行业 DevOps 、持续测试等研运一体化相关标准和自主可控标准的制定和评估工作,参与2022、2023年中国 DevOps 、 AIOps 现状调查报告的编制。
演讲主题:
一汽-大众一体化技术运营平台落地实践
议题简介:
分享一汽大众一体化运维平台建设的整体思路和成果,以及配置管理、自动化运维等方面建设过程中遇到的一些挑战和解决方法。
演讲提纲:
1、建设背景
2、实现路径及成果
3、困难及挑战
4、未来规划
听众收益:
1、一体化运维(运营)平台的建设思路
2、一体化运营平台建设过程中的一些坑和解决方法
个人简介:
牛昊,先后就职于长春理想科技、亿联银行。现一汽-大众技术运营负责人负责公司技术运营工具及体系的建设,专注于自动化运维、配置管理、可观测性等技术运营平台和体系建设。
演讲主题:
长安汽车工程技术侧 DevOps 实践
议题简介:
在当前快速变化的汽车工程技术领域,汽车企业正面临着前所未有的挑战与机遇。为了提升研发效率、缩短产品上市周期并保持高质量的产品输出,越来越多的汽车企业开始关注并践行 DevOps 文化。本议题将深入探讨汽车企业如何通过建立自主可控的 DevOps 工具链,将 DevOps 理念深入融入到日常的研发流程中,从而实现真正的 DevOps 实践。
通过建立自主可控的 DevOps 工具链,汽车企业能够实现对研发流程的全面掌控,从需求分析、代码开发、测试验证到部署上线,每一个环节都能得到高效的支持与优化。这不仅有助于提升研发团队的协作效率,还能确保产品质量和稳定性,为企业带来更大的竞争优势。
同时,践行 DevOps 文化意味着打破传统研发与运维之间的壁垒,促进团队之间的紧密合作与沟通。通过实施持续集成、持续交付和持续部署等 DevOps 实践,汽车企业能够更快地响应市场变化,满足用户需求,从而在激烈的市场竞争中脱颖而出。
本议题将结合长安汽车工程侧的实际案例,详细阐述如何构建自主可控的 DevOps 工具链,以及如何在企业中成功践行 DevOps 文化和实现 DevOps 实践。相信这将为参会者提供宝贵的经验和启示,助力汽车企业在工程技术侧取得更大的突破和发展。
演讲提纲:
敬请期待
听众收益:
敬请期待
个人简介:
靳秋, 在 IT 领域超过10年工作经验,曾在汇丰银行,都邦财险,合众人寿,北汽集团等金融,制造领域从事软件架构设计,项目管理,解决方案制定等工作,对运维大数据、AIOPS 的泛行业应用有深刻理解
演讲主题:
面向汽车数字座舱的一体化工作平台实践
议题简介:
主题简介:如何以互联网思维在汽车行业实现体系化的交付,传统互联网公司的应用交付又与互联网造车交付的异同点;本次将以数字座舱为例,介绍数字座舱一体化的平台从0到1的实践过程,并且如何通过平台能力提升交付质量和促进研发效能的提高
演讲提纲:
2、平台建设之路
3、万物皆可度量
4、展望未来
听众收益:
1、了解造车行业如何以互联网思维实现软件交付
2、解析如何实现云端管理和使用座舱设备
3、讲解通过平台能力如何完成体系化度量建设
个人简介:
闵杰,现任蔚来汽车研发效能架构师,负责公司质量管理体系建设和数字座舱一体化工作平台搭建,常年专注于工程效能提升及大型项目管理的实践,并在多家一线互联网公司拥有成功案例
演讲主题:
平台工程的“破局之道”
议题简介:
在 DevOps、平台工程、AI 快速、持续演进的背景之下,平台工程作为企业级产品开发组织中的重要组成部分,持续承受着支撑交付的压力,同时亦需面对来自更高级别组织的持续变化,涉及到工具、业务策略等方面的挑战。
在这样的背景之下,我们思考并探索着平台工程新的思路。我们尝试从开发者体验中最核心的痛点切入,切实提升关键路径上的效能、降低开发者认知负荷;我们持续优化团队内外协作模式,灵活应对不同组织层面上的变化;另外,我们保持对新技术、新趋势的有效跟进。最终,实现以小博大,确保团队以及所服务的组织都能实现超线性的增长。
演讲提纲:
1. 平台工程的挑战
a) 内部挑战
b) 外部变化
c) 重新思考平台工程
2. 平台工程的实践新思路
a) 从开发者流量入口切入
b) 建立有效反馈
c) 持续做减法的演进方式
3. 工程文化建设的思考与实践
a) 工程文化建设的重要性与艰难性
b) 工程文化的实践分享
4. 总结
听众收益:
1. 启发内部开发平台建设的新思路
2. 思考工程文化建设的必要性
3. 把握行业持续变局中的核心矛盾
个人简介:
管俊, 以测试⼯程师的⾓⾊开启职业⽣涯,⾃ 2013 年开始接触并实践 DevOps 相关的⽅⽅⾯⾯的技术、⼯具、项⽬与职能。在之前外企和本⼟企业的经历中,以研发、运维、产品经理、架构师等不同⾓⾊主导或参与了若⼲ OpenStack、Kubernetes 产品、项⽬的设计、实施与落地运⾏,以及运维、 DevOps 团队的建设和管理。⽬前在传统 IT 企业从事 DevOps 架构师的⼯作,从产品交付赋能、⼯程效能的⾓度持续地为整个组织和产品提供助⼒。译有《DevOps实践指南(第二版)》一书。
演讲主题:
业务架构演进过程中异构数据库的高效运维探索实践
议题简介:
目前广东移动拥有数千套数据库,数据库种类从成熟的商业数据库产品逐步转向开源数据库、国产数据库,面对技术架构演进快、业务体量大、数据库种类多等数据库运维挑战,广东移动探索建立一套标准化、集中化、自动化、智能化的数据库运维体系,实现从传统运维到数智运维的转型。
演讲提纲:
1、数据库的发展现状和运维挑战
2、广东移动数据库运维体系探索实践
3、未来数据库运维演进方向和展望
听众收益:
1、了解广东移动在当下数智化转型背景下的数据库运维实践案例
2、共同学习探索当前形势下数据库演进的高效运维思路
个人简介:
赖坤炽,中国移动 IT 专业卓越工程师。深度参与广东移动的 IT 数智化转型和数据库国产化改造,拥有丰富的数据库运维经验。
演讲主题:
大模型在运维低容错场景下的应用实践
议题简介:
浙江移动多年来深耕云原生技术领域,持续推动 IT 数智运维转型升级,并积极尝试各类新型技术在应用运维领域的探索和实践。本次分享将重点讲述浙江移动在云原生向 AI 原生演进过程中,低容错故障场景下大模型的应用实践,通过构建基于 HASOP 的可控智能体新范式,提升低容错场景的适用性,总体来说,分享主要包括一是如何构建能力,即 HASOP 智能体协作增强能;二是落地工程实践,即打造浙江移动符合自身业务场景的密集阵智能体,通过两方面内容来分享大模型在运维低容错场景下的应用实践经验。
演讲提纲:
1、浙江移动数智运维体系介绍
2、大模型在运维领域落地的思考和探索
3、大模型在运维低容错场景下的真实工程实践和效果
4、运维大模型未来演进和展望
听众收益:
1、了解浙江移动现有运维体系构成以及当前面临的一些问题
2、了解大模型在运维领域实际落地的路径和投入考量
3、了解结合 SOP 的大模型在运维低容错下的应用
4、共同学习探索行业,运维领域大模型建设思路
个人简介:
傅建新,浙江移动技术运营部主管,负责公司全省 IT 系统业务维护保障和智能运维实践落地等工作,具备10多年丰富的 IT 运维和体系建设实践经验,通过不断推进运维研发化转型和能力进阶,在业务运营、故障处置、数字协同和客户服务等领域,成功带领团队构建技术领先、敏捷高效的运维保障体系,并将浙江移动 SRE 运维体系打造成中国移动集团标杆,组织团队加入 SRE 精英联盟、切面联盟等民间社区组织,并参与编制运维行业白皮书,有效推动运维行业领域的发展,助推浙江移动运维体系在行业的影响力。
演讲主题:
打造云上数字化研发模式:中国电信企业级 DevOps 落地实践
议题简介:
中国电信针对企业数字化转型中普遍面临的管理难题和技术挑战,通过创新1+N 的分布式平台体系和异构工具链一体化设计,突破多项关键技术,打造了全栈环境、高度智能、一站式云上研发协同平台——研发云。
作为中国电信统一的一站式云上研发协同和管理平台,工具实践上提供完整的 DevOps 工具链覆盖敏捷协同、智能研发、安全研发、持续集成、持续部署、效能度量等多个领域,实现软件研发到生产部署端到端服务、全生命周期研发效能管理与基于大模型的 AI 赋能高效研发;管理实践上结合企业研发创新目标,将开发规范与平台工具在线融合,并通过创新运营体系保障平台活力。最终构建成为企业级科技创新基础设施,全面服务中国电信的数字化转型。
演讲提纲:
1、研发云平台建设背景
2、研发云平台工具搭建实践
3、研发云平台规模应用实践
4、研发云平台企业级管理实践
听众收益:
1、了解中国电信在 DevOps 领域的建设背景与发展历程
2、了解中国电信在建设适应大型复杂组织的 DevOps 平台中的实践经验
3、了解中国电信在推广使用统一 DevOps 平台过程中的实践经验
个人简介:
甘宇珲,19年+世界500强企业工作经验,深耕于软件工程管理、研发效能提升领域,熟悉精益管理、规模敏捷、DevOps 等方法和运用。对企业级 DevOps 平台的架构设计与建设,以及如何实现企业级数字化研发管理有丰富的实践经验。
演讲主题:
久病成医,终得良方:中国联通 IT 系统故障管理的道法术器
议题简介:
大用户规模的系统故障往往会对用户体验产生重大影响、损害企业声誉形象,因此如何应对故障挑战并从中不断成长尤为重要。中国联通在 IT 系统全国集约过程中,通过总结故障中踩过的各种“坑”,逐步形成一套行之有效的故障管理的良方——道(理念)、法(方法)、术(技术)、器(工具)。希望通过此次分享,能够为大家提供有益的借鉴,助力各位做好故障管理,提升系统稳定性。
演讲提纲:
1、大型组织、大规模系统在故障方面面临的挑战
2、故障管理的道(理念)、法(方法)、术(技术)、器(工具)
3、成果与展望
听众收益:
1、了解中国联通 IT 系统在故障中踩过的各种“坑”
2、了解中国联通 IT 系统故障管理的道(理念)、法(方法)、术(技术)、器(工具)
3、共同学习探索故障管理及系统稳定性提升思路
个人简介:
王子岩,中国联通专家人才,联通软件研究院副总架构师,联通数字化线10年工作经验,目前负责联通 BMD 域 IT 系统稳定性提升的运营以及故障管理、应急管理、系统上线交维管理工作,负责中国联通数字化监控平台故障管理系统建设运营
演讲主题:
浅谈中国移动 IT 条线 SRE 运维转型
议题简介:
云原生背景下,传统的运维模式面临重重挑战。在充分调研国内外 SRE 建设经验后,中国移动结合运维域战略要求和实际情况,在ITGOC“两精四维”统一运维管理框架中引入 SRE 理念,优化构建中国移动 SRE 运维体系,并针对 SRE 体系落地中面临的:SRE 转型缺少指引、工作机制待完善、能力缺乏标准、实践过程缺少指南、效果无从评估等困难,经过三年多迭代,打造出“1341”SRE 评测体系。通过 SRE 评测工作,为 SRE 开展提供抓手,助力各运维单位 SRE 转型,有效推进各单位 SRE 成熟度的提升,为业务连续性提供保障,助力在快速变化的技术环境中保持竞争力。
演讲提纲:
1、中国移动 IT 条线 ITGOC 运维管理机制
2、中国移动 SRE 评测体系
3、可观测工具产品最佳实践案例
听众收益:
1、学习了解中国移动 IT 条线 ITGOC 运维管理机制,了解中国移动如何通过各种管理技术手段推动 IT 条线运维工作深入开展,推动全网运维水平提升
2、学习了解中国移动 SRE 评测体系,包括不限于能力矩阵,评估模型、评测组织和最佳实践等内容
3、学习了解中国移动 SRE 在可观测领域打造的优秀工具产品情况
个人简介:
张晓培,中国移动十百千专家,十余年深耕运维质量管理领域,致力于研究解决在用户规模、业务种类成倍增长的环境下和系统规模、系统复杂度呈指数级跃升的背景下的运维质量优化提升方案,并推动中国移动 IT 条线全面应用提升。
6. 技术人的路和远方
听众收益:
通过该技术分享可以听到近十几年整个业务快速变革带来的运维技术工作模式的变化与革新,特别随着这两年 AI 技术出现,人肉、常态化技术支持已经远远不够,在稳定性角度怎么能够从被动支持到主动运维,从单点救火到面的治理,如何用工程化的思维实现整体稳定性体系建设以及随着技术发展后的效率提升,以及技术发展后如何通过技术的手段推进业务的发展,演讲者将从阿里巴巴,特别阿里云的实践中一一解答,也和听众探讨技术人的路和远方还将在哪里。
个人简介:
林万境,十五年互联网行业技术架构、运维 SRE 稳定性体系建设老兵,早期就职游戏公司,经历了从刀耕火种到业务井喷下的运维自动化体系建设及落地;先后就职 UCloud、阿里云,经历了云技术快速发展的关键时刻,有丰富的云运维 devops 经验,长期专注互联网行业技术服务保障工作,聚焦电商、泛娱乐、教育、产互等行业客户,打造结合客户业务及云上最佳实践方案、赋能,擅长行业架构、云实践、疑难问题攻坚等。先后分享、著作有《重保护航——保障云上巅峰时刻》、《游戏技术服务与业务最佳实践》、《云上社交行业白皮书》,参与《云上奥运技术实践体系》书籍编写等。获2023年 GOPS 深圳站金牌讲师,作为 InfoQ 专题出品人在2023年上海 archsummit 大会出品专题互联网行业技术架构演进专题并作主题分享,阿里云金牌布道师。
演讲主题:
蚂蚁集团大规模互联网系统 SRE 稳定性实践
议题简介:
在当今快节奏的数字化时代,系统稳定性是企业持续增长与创新的基石。本次分享将会深入探讨如何通过 Site Reliability Engineering(SRE)的先进理念与实战策略,构建并维护高度可靠的互联网系统,并结合 SRE 团队如何平衡技术创新与运营效率,不仅确保系统的高可用性,还要推动产品和服务质量的持续提升。
演讲提纲:
(1)互联网业务高速发展—业务 SRE 稳定性如何定义
(2)蚂蚁业务 SRE 稳定性的设计思路
(3)蚂蚁业务 SRE 稳定性的落地策略
(4)蚂蚁应急专题介绍
(5)大促稳定性专题介绍
听众收益:
1、了解大规模互联网系统的稳定性如何来做
2、了解蚂蚁集团 SRE 稳定性的设计及落地思路
3、了解应急、大促等稳定性经典课题的解题思路和创新
个人简介:
张达,2013毕业于东北大学,目前负责蚂蚁集团--国内稳定性--支付宝数字互联业务的 SRE 稳定性,长期在应急、容量、全链路压测、大促等领域进行沉淀,负责解决数字互联业务发展阶段下稳定性问题,迭代技术风险应急、大促架构,助力业务目标达成。
演讲主题:
大型企业系统可观测性的最佳实践
议题简介:
大型企业利用数百个 IT 系统来满足业务需求。并非所有这些系统都设计良好且易于操作。可观察性是操作任何大型 IT 系统的重要组成部分。在本次演讲中,我将分享监控旧 IT 系统和新 IT 系统的最佳实践、标准化原则以及如何避免常见错误并为您的组织节省时间和金钱。
演讲提纲:
1、大型企业挑战背景概述
2、标准化为何有帮助?
3、如何标准化遗留和新的 IT 系统
4 、如何避免错误并获得更高的可观测性系统投资回报率?
听众收益:
1. 了解大型应用监控系统背后的核心原则
2. 学习如何制定全公司范围的标准
3. 了解如何选择适用于所有系统的正确工具
个人简介:
ILYA MOCHALOV,来自俄罗斯,今年33岁。最近几年工作在中国上海。在 IT系统运行、可观察性、网络和网络安全方面拥有丰富的知识和经验。目前在一家大型国际组织工作,帮助标准化和提高 IT 系统的可观察性。
演讲主题:
安全运维新范式:DevSecOps 结合 LLM、RAG 和 Agent 的创新实践
议题简介:
聚焦于如何利用 LLM、RAG 和 Agent,助力实现 DevSecOps 全生命周期的安全运维智能化。我们将探讨如何在需求分析、设计、编码、测试、部署和运维各阶段,提供智能化的安全保障。通过实际案例,展示如何构建一个主动且自适应的安全运维体系。同时,我们将剖析实施过程中的挑战,如安全模型的可信度、人机协作等问题。本演讲旨在为与会者提供一个创新的视角,展示如何在大模型时代构建更安全、更高效的软件开发和运维流程。
演讲提纲:
1. DevSecOps 在大模型时代遇到的新挑战
2. LLM、RAG 和 Agent 在安全运维智能体系中的新角色
3. DevSecOps 全生命周期的安全运维智能化应用实践
4. 示例研究与实战效果分析
5. 未来展望与发展建议
听众收益:
1. 深入理解 DevSecOps 面临的最新挑战
2. 学习如何将 LLM、RAG 和 Agent,与现有的 DevSecOps 流程协同工作,提升全生命周期的安全性
3. 掌握在各阶段实施安全运维智能化的必要措施和技术手段
4. 获取实际案例中的经验教训和最佳实践
个人简介:
黄帅,在软件研发领域拥有十五年丰富经验,专长于架构设计、分布式系统稳定性建设、安全运维和团队管理。自2018年起,他致力于全球混沌工程实践的布道和落地,是《混沌工程:复杂系统韧性实现之道》一书的合译者。近年来,关注大模型领域,积极探索达模型技术在安全实践中的创新应用,旨在融合前沿技术与传统软件工程最佳实践,以提升系统可靠性、安全性和效率。
演讲主题:
大模型时代:面向 LLM 应用的可观测能力建设
议题简介:
随着生成式 AI 概念的火爆,以 ChatGPT,通义大模型为代表,市场上涌现了一系列商用或者开源的大模型,同时基于大语言模型以及 AI 生态技术栈构建的应用以及业务场景也越来越多,大规模的模型训练以及模型推理场景也催生了MLOps、LLMOps 等相关的岗位需求。如何监控并保障大模型应用上线的性能以及用户体验?如何支持复杂拓扑场景下 LLM 应用领域的链路可视化分析以及问题根因定位?需要从成本以及效果等方面获得线上实际表现,辅助选择、分析、评估以及优化迭代大语言模型等。基于上述需求以及问题背景,面向 LLM 应用技术栈的可观测能力解决方案也成为了日益重要的话题。
演讲提纲:
1、LLM 应用生态以及应用范式
2、为什么需要 LLM 应用可观测?
3、阿里巴巴 LLM 应用可观测解决方案
4、LLM 应用可观测实践案例
5、LLM 应用可观测展望及挑战
听众收益:
1、了解当前 LLM 应用常见架构范式以及可能遇到的挑战
2、了解 LLM 应用相比于微服务应用的可观测性关注点差异以及若干挑战
3、基于 OpenTelemetry 的 LLM 应用可观测能力的落地探索实践
个人简介:
蔡健,具备多年互联网行业以及业务领域架构设计经验,目前聚焦阿里云可观测应用可观测领域,主要从事可观测产品 ARMS 与EagleEye 的研发、设计与布道,具备丰富的可观测领域技术架构以及实践经验,成功推进 ARMS 应用性能监控和应用安全(RASP)融合解决方案落地,关注APM 以及 OpenTelemetry 开源社区生态等最新动态。目前关注大语言模型领域可观测需求场景,探索支持 LLM 应用层到底层基础设施的全栈可观测能力解决方案以及最佳实践。
演讲主题:
百万交易不停歇:数智云平台运维实践
议题简介:
因民航业务具备实时性和高并发的特点,对系统同时提出了业务连续不中断和自主可控的要求,支撑业务的云平台覆盖 IAAS 和 PASS 两部分,从高可用、技术能力、运营运维能力、自动化能力等方面进行统一规划建设,基于技术、工具、组织等维度构建了一套完整的运维体系,在运维实践中针对自动化部署、容量预测和故障处理等运维场景积极探索应用人工智能技术,在进行关键业务的改造同时保持业务多年零停机。
演讲提纲:
1、业务背景和系统特点
2、高并发实时交易云平台建设路径
3、高并发实时交易云平台的运维方法
4、高并发实时交易云平台的智能运维实践
听众收益:
1、支持高并发实时交易业务的云平台在进行自主可控建设改造时,如何通过数字化运营建设保障多年零停机记录
2、运维实践中如何应用人工智能技术解决痛点
个人简介:
邓嵬 ,本人自2006年以来在中国航信运行中心工作,积累了丰富的运维和技术管理经验,并进行大型数据中心的监控、CMDB 和自动化工具建设,提升运维工作的效率和准确性。近年来,我专注于 IT 基础设施云平台建设,推动企业云化转型,并积极探索智能运维场景,实现运维工作的自动化和智能化。
演讲主题:
可观测性领域的应用安全探索与实践
议题简介:
这次分享将为你揭示可观测性领域的应用安全新视角,我们将一同探讨生产环境运行时应用安全的核心问题,分享真实世界中的安全可观测性案例,以及探讨一套全面的安全可观测性解决方案。我们希望为你提供一种新的视角,帮助你更好地理解和应对当下应用安全的挑战。
演讲提纲:
一、AIOps 现状和未来
二、可观测性发展现状和趋势
三、应用安全可观测性
3.1 应用安全观测的痛点
3.2 最新应用安全分析
3.3 安全可观测性案例
3.4 安全可观测性方案
听众收益:
1. 应用安全观测的核心痛点,更深入地理解新场景,在实际应用中避免这些问题。
2. 安全可观测性的前沿案例,通过两个大客户的真实的案例,了解到安全可观测性在实际应用中的效果,获得实战参考。
3. 完整的安全可观测性方案,包括 Agent 复用、API 安全、0day 漏洞防护、生产环境组件安全、入侵拦截等关键技术。
个人简介:
卢中阳,原乌云社区核心白帽黑客,在应用安全、DevSecOps 等领域拥有十年以上工作经验。
2020年创立火线安全,任联合创始人兼 CTO,主导研发并推出了全球首款开源的交互式应用安全测试产品洞态 IAST,已在全球20多个国家实现实际落地部署应用。
现任基调听云安全产品线总经理,全面负责基调听云安全业务线工作,主导推出了应用安全态势管理产品安云。
演讲主题:
Zabbix 7.0 环境高标准建设和运维
议题简介:
Zabbix 开源监控系统已经发布了最新7.0 LTS版本,依托于已有功能和最新版本功能,我们将从架构设计、系统建设和高效运维三个维度介绍如何搭建一套高质量的监控系统。
演讲提纲:
1、架构设计
2、系统建设
3、高效运维
4、Zabbix 与信创生态的融合
听众收益:
1、对 Zabbix 监控系统有基础的了解,并了解 Zabbix 最新版本新功能
2、了解建设 Zabbix 监控系统的整个流程
3、标准化数据为智能化打下坚实基础
个人简介:
何星,Zabbix 大中华区培训师,技术经理,上海宏时数据系统有限公司大中华区最年轻的 Zabbix 认证培训师!主导并完成了国内数十个大中银行、保险等金融公司统一监控项目,拥有非常丰富的 IT 运维管理实战经验。
演讲主题:
Zabbix 与信创生态的融合
议题简介:
1. 了解 Zabbix 开源监控系统基本架构和功能,从网络监控真实应用场景出发,剖析 Zabbix 系统如何实现这些功能,以及提供搭建一整套 Zabbix 系统的思路和方案。
2. 了解 Zabbix 在中国的完整生态,以及原厂的培训体系、订阅体系、和合作伙伴体系如果切实为中国用户保驾护航。
3. 在信创大背景下,Zabbix 作为世界级开源监控软件如何与国内的信创体系融合。
演讲提纲:
1、Zabbix 服务体系
2、Zabbix 与信创
3、Zabbix 中国生态
听众收益:
1、对 Zabbix 监控系统有基础的了解,并了解 Zabbix 最新版本新功能
2、可以将 Zabbix 应用于网络监控并在此基础上做相应的定制开发
3、知道如何获取 Zabbix 专业服务
4、了解 Zabbix 与信创融合的最新进展
个人简介:
郑子静,宏时数据有限公司市场总监,负责 Zabbix 在大中华区的服务体系、合作伙伴生态建设及市场推广运营。
演讲主题:
可观测全域数据模型在智能运维中的实践
议题简介:
在云原生蓬勃发展的背景下, 运维数据的体量和变化速度都出现了大幅的增长。 在海量数据规模下如何做好智能运维成为所有从业者面对的关键挑战。 本次将分享如何基于可观测全域数据模型构建智能运维的解决方案。
演讲提纲:
1、可观测解决方案面临的关键挑战
2、可观测全域数据模型的方法论
3、可观测和智能运维的落地效果
听众收益:
1、了解可观测全域数据模型在智能运维领域的应用实践
2、了解 AIOps 的前沿成果
3、了解业内领先的可观测平台的最新进展
个人简介:
贺安辉,目前担任博睿数据产品中心负责人,AIOps 首席专家, 14年智能运维领域从业经历,曾供职于中国工商银行、蚂蚁集团等企业,对运维体系、技术、产品形态和方法论有丰富的经验。
演讲主题:
支付宝全生态可用性监控保障的技术体系与应用
议题简介:
介绍支付宝全生态可用性监控保障发展历史,介绍生态可用性监控保障体系与技术框架。重点介绍商家可用性保障的技术与应用。
演讲提纲:
1、介绍支付宝全生态可用性监控保障发展历史
2、介绍生态可用性监控保障体系
3、重点介绍商家可用性保障的技术与应用
听众收益:
1、了解商家监控保障体系的演进与发展
2、了解商家可用性监控保障的整体架构
3、了解商家技术可用性的技术与应用
个人简介:
唐亮,支付宝生态保障负责人,在2014 ~2016年期间构建了支付宝售后技术支持体系,在2016~2020年期间担任数字商业线业务监控保障负责人,2020~2024年担任支付宝生态保障负责人。牵头重点项目包括大促三方活动保障、IoT 售后维保体系建设、疫情期间的健康码保障等。
演讲主题:
代码生成 Copilot:大语言模型在真实开发场景下的实践
议题简介:
近年来,随着大型语言模型(LLMs)、提示策略、上下文检索算法及相关工具的迅速发展,自动代码补全和生成工具(如GitHub Copilot)的能力和普及度显著提升。其令人惊叹的效果展示了将大语言模型应用于代码生成领域的巨大潜力,促使业界纷纷开始跟进同类产品的构建。然而,在大型企业场景下,真实开发环境复杂多变,业务需求繁杂多样,代码编程助手在工业界的实际应用面临多重挑战。例如,现有的代码补全评估方法主要依赖于静态代码基准,忽略了人与代码库不断演化的互动过程,如何建立高效的评估体系成为一大难题。本次演讲将主要分享字节跳动 AI 编程助手(豆包MarsCode)的落地和应用经验,深入探讨如何衡量大语言模型在真实开发场景下的表现,以及代码生成技术的进一步演进方向。
演讲提纲:
• 字节跳动代码生成探索历程
• 代码生成工业界评估
o 构建自研评测体系的重要性及设计原则
• 代码生成进一步演进
o 代码编辑推荐概念解析
o 代码编辑推荐实现方案:算法选择、模型训练与数据处理
• 代码生成展望
听众收益:
1. 了解代码生成的核心概念、发展脉络、前沿进展
2. 了解字节跳动代码生成评测体系的设计思路
3. 了解在大型企业落地大模型相关技术的难点和挑战以及未来展望
个人简介:
吴沁芸,字节跳动代码智能团队高级算法工程师,主要负责面向开发者的代码编程助手中代码生成相关的算法研发及业务落地,在 MSR、FSE 等重要学术会议上发表过相关学术工作。
演讲主题:
构建安全可靠、高效运行的应用架构
议题简介:
对架构师来说,安全、稳定、性能、成本是架构设计中最通用领域的抽象,也是企业组织层面最需要关注的几个维度。基于过去多年架构实践经验总结,将架构设计总结为一系列的方法论和设计原则,形成一套标准的卓越架构框架。本次分享,我将深入解析这一卓越架构框架中的设计原则与最佳实践,旨在助力各位更高效地驾驭系统架构设计,实现技术与业务的双重卓越。
演讲提纲:
1、企业应用架构面临的主要挑战
2、卓越架构 Well-Architected
3、卓越架构案例
4、回顾与总结
本次分享旨在阐明卓越架构最佳实践。无论是追求极致的稳定性,需要从系统冗余、故障隔离、自动恢复等多个维度完成架构设计;还是在增强安全性上,识别并防范数据泄露、入侵攻击等潜在威胁,制定有效应对策略,你都将获得具体可行的指导。
此外,我们还将借鉴行业头部企业如何成功实施卓越架构策略,改进并优化其系统架构的实例,为你的架构设计之路提供宝贵经验和启示。期待这次分享能激发灵感,助你构筑更加可靠、安全且高效的系统架构。
个人简介:
周金龙(遥方),阿里云高级解决方案架构师。2011年加入阿里,先后建设了阿里集团 CMDB、DevOps、监控等 SRE 产品。2016年加入菜鸟技术团队主导云原生架构,参与了菜鸟全球多域混合云架构,菜鸟弹性伸缩架构建设。最近三年聚焦企业 IT 治理、企业上云用云等技术领域,服务过上百家头部客户,在云上安全、稳定、成本优化等领域拥有丰富经验。
演讲主题:
数据库的 Serverless 技术演进和核心技术突破详解
议题简介:
数据库是构建业务应用架构的重要组成,在云时代,业务架构的云化对数据库提出了更高的要求。云的终态是向水电煤一样使用资源和服务,当然也包括数据库服务。因此 Serverless 形态的数据库服务这种按照使用计费而非按照预购规格付费是云数据库的终态,也是其核心价值,同时也能大服务降低运维复杂度。
但是数据库特别是关系型数据库的 Serverless 面临很大的技术挑战,特别是在数据库的无感跨机弹升,和一致性横向弹升上,尤为突出。本次演讲将详细介绍工业界和学术界在这方面的技术发展趋势和当前成果
演讲提纲:
1. Serverless 数据库的价值
2. Serverless 数据库的发展和技术挑战
3. 详解几个核心技术突破
4. 未来的方向
听众收益:
1. 了解 Serverless 数据库的发展和核心技术
2. 了解 Serverless 数据库的业内应用现状
个人简介:
章颖强(阿里花名:江疑)现任阿里云数据库事业部资深技术专家,在浙江大学获得本科和硕士学位,2012年加入百度数据库团队,2014年加入阿里数据库团队,是 AliSQL 的创始研发骨千之一,曾多次担任阿里集团双十一数据库内核负责人,目前负费阿里云主营战路产品 PolarDB 数据库的内核研发和架构演进,同时担任 ICDE 等数据库顶级国际会议的程序委员。其多个技术创新己在阿里云 PolarDB 产品广泛应用,并发表在 SIGMOD/VLDB/ICDE/ASPLOS 等著名国际会议或期刊上,并多次获得 Best Paper。/br>
演讲主题:
从混沌工程入手,谈企业联合故障演练
议题简介:
从集团、蚂蚁的架构改进和混沌工程建设入手,讲述故障演练的背景和建设过程。逐步拆解各个单点故障演练方案和应用级别故障演练方案。讲述云上客户如何与厂商协同完成故障演练。剖析经典案例。
演讲提纲:
1.故障演练背景
2.中间件高可用演练
3.应用高可用演练
4.云上企业联合演练案例
听众收益:
不管是 IDC、混合云、纯公共云的场景技术从业人员,都可以在分享中收货混沌工程建设的方法,包括混沌工程系统搭建、故障演练组织设计、演练关键流程、演练效果评价等。
个人简介:
程哲桥,十年阿里集团专家,先后服务电商,支付等核心在线业务,擅长数据库技术,高并发系统保障,系统稳定性架构,大型系统上云、容灾。
目前服务于阿里云,为企业客户上云和用云提供工具、产品和技术服务整体解决方案,致力于持续推动技术服务在云卓越架构上的标准化和创新。
演讲主题:
一次史诗级难度的数据搬栈及避坑指南总结
议题简介:
随着云计算技术、云上日新月异的大数据解决方案的快速发展,数据搬栈,作为技术的高点难点,几乎成为行业内人人都会遇到的场景。分享一次史诗级难度的数据搬栈经验,展示长周期搬栈项目的全貌以及实施落地过程中的技术难点,内容覆盖端到端的资源准备,复杂项目管理,海量数据、任务的双迁移和业务无感的平台割接等多项内容。
演讲提纲:
1.资源准备——端到端的预警机制支撑资源准备
2.数据迁移——数据资产管理为数据迁移保驾护航
3.任务迁移——灵活机动的双跑规划为任务迁移提速
4.平台割接——一万次的准备成就最后的成功
5.总结回望——在线可视的项目管理让风险最低
听众收益:
围绕数据搬栈的点点滴滴,了解数据湖(仓)迁移项目的全貌以及实施过程中的常见风险。提供数据搬栈的最佳实践作为参考。为面临数据搬栈的业内同仁提供一些可复用的方法指导和参考干货。
个人简介:
房军,六年工作经验,专精数据领域工作,熟悉零售和互联网等行业数据场景,通过 Togaf 架构师认证和 CDMP 资格认证,熟悉主流湖仓一体解决方案,精通数据架构设计、数据模型设计、数据资产管理及数据治理等多项数据领域工作。
目前服务于阿里云,为客户提供云上大数据解决方案,为客户用好云上大数据产品提供技术支持服务,致力于通过大数据技术产品和服务助力客户业务发展。
演讲主题:
大语言模型赋能自动化测试实践、挑战与展望
议题简介:
自动化测试通过自动生成测试用例来发现软件中的缺陷,已成为保障软件质量的关键技术之一。例如,Google 的 AFL 和微软的 Restler 测试工具已经得到了广泛应用。然而,自动化测试在大规模软件测试中仍面临一些挑战,如难以覆盖约束复杂的瓶颈目标和难以检测逻辑缺陷等。随着对大模型研究的深入,其强大的程序理解和生成能力在代码生成和代码克隆方面取得了显著效果。课题组开展了一系列大语言模型赋能自动化测试的探索,包括(1)基于大语言模型的复杂类型输入的生成;(2)基于大语言模型的测试用例增强;(3)基于大语言模型的测试用例的迁移等。本报告旨在分享上述研究中的探索经验。
听众收益:
1、了解大语言模型赋能自动化测试的途径方法
2、了解大语言模型赋能自动化测试的挑战
个人简介:
董震,海德堡大学博士,复旦大学计算机学院青年副研究员,上海市领军人才(海外),中国计算机学会(CCF)智能机器人专业执行委员、软件工程专业委员会执行委员。致力于智能化测试、程序合成方面的研究,先后参与完成多个国际联合项目,包括卡巴斯基公司、新加坡电信公司、澳大利亚蒙纳士大学等与新加坡国立大学的合作项目,在NeurIPS、IJCAI、FM、ICSE、FSE、ASE、ISSTA等国际会议发表30余篇学术论文,并获得ICSE'20 杰出论文、AsiaCCS’21 最佳论文(1/370)等多个奖项。同时,担任多个国际期刊审稿人以及国际会议程序委员会成员,并获得ASE’22杰出评审、TOSEM 杰出评审,TOSEM 制品杰出评审等称号。
演讲主题:
基于 Kubevirt 技术优化虚拟机交付流程,统一资源调度
议题简介:
由于 CentOS 社区宣布终止 CentOS 支持,我们选择了 RHEL 系列中的 AlmaLinux 作为替代解决方案,同期 KubeVirt 发布了1.0生产就绪版本,借此机会,我们希望将虚机的管理从庞大而繁重的 Openstack 迁移至 K8s,我们选择 Kubernetes 1.28 与 KubeVirt 1.0 作为虚拟化基础,使用
cgroup v2 进行资源隔离。在进入生产阶段之前,我们遇到了一些挑战,主要包括 Alamlinux 基础软件及内核适配、Kubernetes 组件适配以及 KubeVirt 架构改造等。因此,我们希望借此分享一些我们依托 KubeVirt 构建虚机交付平台的最佳实践。
演讲提纲:
1、依托 Kubevirt 构建二代虚机交付平台的项目背景
2、虚拟机与容器混合管理方案选型
3、KubeVirt 构建虚机交付平台过程中的痛点与难点
4、KubeVirt 构建虚机交付平台的最佳实践
听众收益:
1、了解 Almalinux 在 Centos 替代过程中的容器层面的痛点与难点
2、了解基于 KubeVirt 构建虚机交付平台的一些最佳实践
个人简介:
邹能人,云原生基金会大使,专注于云原生生态系统,特别是在维护各种社区方面,如 Kubernetes、Containerd、Kubevirt、gRPC 及CoreDNS 等。
演讲主题:
去哪儿网预发平台的设计和实践
议题简介:
随着去哪儿业务规模的不断扩大,质量要求日益严格。每一次线上发布和配置变更都可能引发故障,带来重大损失。因此在正式变更前的验证环节必须格外谨慎。然而去哪儿传统的单服务灰度发布已经无法满足复杂链路的验证需求。
为了解决这一挑战,去哪儿技术团队经过一年的努力,从零开始构建了全链路预发平台。该平台通过流量染色和服务路由技术,实现了预发环境与线上环境的软隔离,使全链路项目在上线前能够得到全面而充分的验证,从而提升了系统的可靠性和稳定性。
演讲提纲:
1. 预发平台背景介绍
2. 预发平台原理和设计
3. 预发平台落地实践
4. 未来展望
听众收益:
1.了解去哪儿网预发平台的设计思想和实践经验
2.了解环境治理上更多技术方案尝试与探讨
个人简介:
2018年加入去哪儿旅行,负责酒店供应链的质量保障工作。期间负责酒店测试环境 3.0 设计和实践,并推动公司级落地推广。对环境治理有深入的理解和实践经验
演讲主题:
让故障无处遁形:去哪儿网 AIOps 平台实战
议题简介:
去哪儿网 AIOPS 平台,做这个平台的初衷是我们发现,大家有一些共同的困扰,随着业务的不断扩大,可观测的监控指标越来越多,人工运维报警变得乏力,有监控无报警的故障占比逐渐变多。同时我们的系统交互也随着业务的丰富变得越来越复杂,故障定位也变得更加困难。搭建去哪儿 aiops 平台就是为了协助开发,用智能的手段监控 watcher ,根因分析,做到故障早发现,故障快定位。
演讲提纲:
1、价值分析
2、异常检测-雷达平台
3、归因分析平台
4、未来展望
听众收益:
1、了解智能监控系统在业务线的实现和落地
2、了解根因分析系统在业务线的探索与实践
个人简介:
宋璐,去哪儿网机票事业部/QA 团队 高级测试工程师,2019年研究生毕业后加入去哪儿网,一直致力于质量保障工作。
演讲主题:
去哪儿网1-5-10故障体系建设:根因分析实践
议题简介:
在公司1-5-10故障响应机制的背景下,根因分析作为故障定位的一环,正发挥着越来越重要的作用。本次分享主要介绍去哪儿网故障体系建设,并重点介绍基于 Trace 的根因分析的架构设计、实现思路和模型验证,以及根因分析系统在故障场景和核心业务报警中的应用。
演讲提纲:
1、背景介绍
2、方案架构
3、模型验证
4、效果展示
5、未来规划
听众收益:
1、了解去哪儿网1-5-10故障响应体系建设
2、了解去哪儿网基于 trace 的根因分析的设计思路和架构实现
3、了解根因分析系统在去哪儿网故障场景和核心业务报警中的应用
个人简介:
梁成琰,去哪儿网资深 SRE 工程师,目前在基础架构团队从事 CICD、可观测性、AIOPS 等相关工作。期间推动完成了去哪儿网容器化落地、监控平台升级、根因分析和预案平台的建设。去哪儿网云原生 SIG 成员,专注于研发效能提升。
近些年,行业不稳定因素频发,各种故障不断,如何快速高效的处理线上故障,实现线上故障真正的1-5-10落地,以及降低线上故障率成为迫在眉睫要解决的问题。
故障诱因多样,变更涉及平台多,如何实现快速定位?
应急响应机制不健全,如何快速拉通故障协同?
目标:提升故障召回率,快恢不能预见的问题,实现5分钟有效定位故障?
演讲提纲:
1、稳定性治理迫在眉睫
2、业务1-5-10摸排、治理思路
3、直面故障,如何破局-应急响应中心建设
4、故障数据运营,到底我们关心的本质是什么?
听众收益:
1、了解行业故障频发大背景下,如何破局
2、一站式应急响应中心建设过程,直面故障进行故障的生命周期管理,缩短故障处理 MTTR
3、构建故障数据运营分析,我们到底关心的是什么?
4、故障召回率90%+,我们是如何实现的?
个人简介:
张鹤,2020年加入 B 站,负责哔哩哔哩业务稳定性保障相关工作,深度参与多活,活动保障,容量治理、应急响应平台等相关建设,主导 B 站 S 赛、跨年晚会、拜年纪等相关活动的基础保障工作
演讲主题:
万卡级智算集群网络建设运维及演进
议题简介:
自大语言模型爆发以来,智算集群建设便是其中重要的一环,其性能会直接影响模型训练的效率,智算网络作为其中关键组成部分,其优劣直接影响了整个集群的性能。科大讯飞在2023年便交付落地了国内首个国产化万卡集群,支撑了科大讯飞星火大模型的训练,在此分享科大讯飞在万卡集群建设落地的过程中的心得体会。由于整个智算集群涉及到计算、网络、存储多个部分,且在大规模高速网络中稳定可靠性都收到挑战,方方面面都会影响模型训练,交流万卡集群的运维经验。同时,伴随着大语言模型的参数越来越大,所需要的计算节点越来越多,意味着网络规模越来越大,速率越来越高,在此分享下科大讯飞在十万卡级别甚至是更大规模的组网的技术思考和规划。
演讲提纲:
1. 大模型发展及国产化集群介绍
2. 万卡智算集群建设运维分享
3. 更大规模智算集群的演进思考
听众收益:
1、了解大模型的发展现状,应用场景、未来发展趋势,以及科大讯飞在大模型领域的进展;
2. 分享科大讯飞的国产化万卡集群建设的经验,以及目前智算集群运维的痛点和方案;
3. 探讨关于更大规模智算集群中网络相关的发展情况和技术演进,分享科大讯飞在后续集群建设的网络技术方面的规划;
个人简介:
罗远, 数据中心首席架构师,负责科大讯飞自有数据中心网络设计和架构迭代工作,推动了讯飞数据中心从传统组网架构向云计算时代,再到如今智算网络时代的转型,去年负责并落地了全国产万卡智算集群的网络架构设计和实施运行。
1、大模型趋势下,智能运维如何寻找场景落地,DevOps 如何进行演变,进行技术植入
2、智能运维的几个流派,以及相应的技术栈
3、大模型体系内,如何落地日志智能化处理、智能工单、多智能体 Agent,以及运维智能知识库
演讲提纲:
1、智能运维根据不同的技术演练,分为 LLMops 和 MLops
2、利用增强技术,构建运维大语言模型知识库的整体智能能力,通过文档结构化拆解算法对上下文进行关联
3、通过基于 Agent 技术的运维大语言模型框架实现工单过程中的多路链状推理
4、根因分析流程对 Agent 进行嵌入,实现故障传播路径的自主发现
个人简介:
顾黄亮,畅销书《DevOps 权威指南》《数字化转型的基石 技术赋能》作者,中国商联专家智库入库专家、国家互联网数据中心产业技术创新战略联盟(NIISA)智库专家委员会副主任委员、江苏银行业和保险业金融科技专家委员会候选专家、工信部企业数字化转型 IOMM 委员会特聘专家、江海职业学院客座讲师、财联社鲸平台智库入库专家、中国信通院可信云标准特聘专家、中国信通院低代码/无代码推进中心特聘专家,腾讯云最具价值专家 TVP,阿里云最有价值专家 MVP,《研发运营一体化(DEVOPS)能力成熟度模型》和《企业 IT 运维发展白皮书》核心作者,出版物《企业级 DevOps 实战案例-持续交付篇》合著作者,容器云技能大赛课程出品人,多个技术峰会演讲嘉宾,拥有丰富的企业级 DevOps 实战经验,专注企业 IT 数字化的转型和落地,致力于企业智慧运维体系的打造。
演讲主题:
大语言模型在软件研发提效场景的应用与落地
议题简介:
在科技行业中,研发效能的提升一直是企业关注的焦点。随着人工智能技术的不断进步,大语言模型作为 AI 领域的一项突破性成果,正在为研发流程带来革命性的变化。当前,行业正处在一个转型期,传统的研发模式正逐渐被智能化、自动化的新方法所取代。大语言模型在辅助编程、自动化测试、文档生成、知识管理、缺陷检测等关键研发环节展现出巨大潜力。企业如何利用大语言模型提高研发的准确性和效率,为企业节省时间和成本,加速新产品上市,是我们思考的主要问题。展望未来,随着技术的不断成熟,大语言模型预计将进一步渗透到更多研发环节,成为推动整个行业创新和发展的重要力量。
演讲提纲:
1. 大模型在软件研发领域的崛起
2. LLM 提升研发效率的逻辑
3. LLM 在企业内部如何有效落地
4. LLM 研发场景落地实践
5. 未来思考
听众收益:
1、了解大模型在软件研发领域的发展现状、实践方法与发展方向
2、大模型怎么与企业自身的研发流程结合、如何提效、需要哪些储备
3、了解大模型在软件研发领域的应用场景与实践经验
个人简介:
黄金,现任趣丸科技基础架构组负责人,负责多云基础设施开发和稳定性保障。10年工作经验,在容器、高可用架构和人工智能等方面有较为丰富的经验。积极参与开源贡献,是知名混部项目 Koordinator 的维护者,在离在线混部技术上有较多积累。多次在国内技术峰会上分享。目前,正致力于探索 AI 运维
演讲主题:
腾讯音乐基于全链路的可观测挑战与解决之道
议题简介:
在现代复杂的分布式系统中,确保系统的高可用性和性能是每个技术团队面临的关键挑战。全链路监控作为一种全面的监控方法,能够覆盖从前端用户交互到后端服务的每一个环节,提供全方位的可视化数据,帮助团队快速定位问题并优化系统性能。
本次分享将介绍腾讯音乐如何通过全链路监控获取全面的观测数据,并结合自研的归因分析技术,快速定位和解决服务瓶颈和故障点,持续提供高价值的监控能力。
演讲提纲:
1、腾讯音乐监控平台简介
2、全链路监控的现状和挑战
3、全链路下的可观测现有实践
4、可观测新场景展望
听众收益:
1、了解全链路监控的现状挑战,提升系统运维能力
2、了解现有可观测实践,快速定位和解决系统问题
3、探索可观测新场景,前瞻技术趋势与应用
个人简介:
吴杰华,腾讯音乐监控平台负责人,9年研发经验,其中7年监控领域经验,2019年加入腾讯音乐后,负责观云平台,为集团内各个产品线提供一站式监控服务。
团队专注于系统监控和可观测性领域,致力于提供高效可靠的技术支持。目前平台实时处理流水超过20E/min,整体数据规模达到 PB 级别,核心业务监控响应时长低至2s,全方位覆盖业务监控诉求。
演讲主题:
SLO 在小红书稳定性建设的探索和实践
议题简介:
分享 SLO 平台建设的背景,SLO 平台的建设思路和具备的平台能力。SLO 在稳定性建设中能够提供的作用和价值及扮演的角色,SRE 在推广 SLO 过程中的运营策略和思路
演讲提纲:
1、SLO 背景概述和小红书稳定性现状
2、SLO 在小红书稳定性体系中的建设思路
3、SLO 带来的作用和价值
听众收益:
1、了解 SLO 的背景、概念,应用场景及作用
2、了解 SLO 在小红书稳定性体系中的建设状况
个人简介:
韩奇祺,2022年5月加入小红书,就任于基础技术部-可观测技术部。在职业生涯中,专注于可观测体系研发工作。目前负责小红书可观测平台、统一告警、分布式链路追踪 Trace 相关研发工作。深入参与公司稳定性建设,从0-1建设 SLO 平台能力,专注于公司 SLO 能力的建设,提升公司业务稳定性。
演讲主题:
咪咕互娱云游戏平台智能化运维与可观测性实践探索
议题简介:
随着云计算和微服务架构的广泛应用,云游戏平台面临着日益增长的复杂性和运维挑战。项目通过集成先进的智能化运维(AIOps)技术和可观测性工具,旨在实现对平台性能的实时监控、故障预测和自动化修复。项目重点解决的问题包括系统自动化能力提升、资源管理优化、收入损失降低以及用户体验增强。通过构建全栈观测链路追踪分析,实现数据层治理、全栈观测链路追踪分析及智能运维能力技术落地,并成功构建先进的云游戏平台可观测能力场景,为广大云游戏用户最佳游戏体验保驾护航。
演讲提纲:
1、云游戏平台发展概况
2、智能化运维与可观测性实践探索
3、项目成果与效益分析
听众收益:
1、云游戏平台行业现状
2、智能化运维与可观测性的应用案例
3、用户体验的持续改进和优化措施
个人简介:
周鸣,拥有超过10年以上的 IT 行业经验,精通各种主流的操作系统、数据库、网络设备和虚拟化技术。在云计算、大数据、人工智能等领域也有深入的研究和实践经验。带领运维团队不断优化和升级企业的 IT 系统,提高系统的可靠性、安全性和可扩展性,以确保运维工作与企业的业务目标紧密结合,从而推动企业的发展和创新。
演讲主题:
数字化运维平台建设实践
议题简介:
从“道法术器”的维度阐述企业如何进行运维体系建设,通过 ITSM、CMDB、自动化运维、可观测、SRE 讲解如何构建数字化运维平台。
个人简介:
赵舜东,昵称“赵班长”,高效运维社区核心成员,GOPS 全球运维大会金牌讲师,阿里云 MVP,中国 SaltStack 用户组发起人;《 SaltStack 入门与实践》、《运维知识体系》和《缓存知识体系》作者;现任速云科技 CEO,专注于 DevOps 和自动化运维。
演讲主题:
【超级五分钟】拨云见月:提升新时代下的运维能力认知
个人简介:
陈刚,高效运维社区 资深 DevOps 专家,超过20年 IT 职位生涯,聚焦于技术运营及运维全领域。工作遍及电信,日本软件开发企业,美国电商公司,国内头部金融企业。使用 python 、js 、go、java 等语言开发过各种 IT 应用。技术领域涵盖持续交付流水线,技术运营,K8s 容器化集群技术转型和 AI 项目运维。全程参与过200+以上的研发团队进行 DevOps 落地实施。10年以上团队管理经验。
已出版持续交付类书籍,GOPS 2018全球运维大会(2018深圳站)专题讲师,SRE Foundation及DevOps Enterprise Coach 证书。
• DAOps 授权讲师
项目案例:
• 农行、交行、上交所、民生银行、浦发银行、中信银行 、移动、电信、南航、一汽大众、华夏银行、华泰证券、海通证券、中泰证券等企业 DevOps 建设;
合作平台建设:
• ADS、云效、蓝鲸、博云牧繁、恒生 DevOps 等
擅长 CI/CD 领域相关的工具链应用和流水线设计。