艾晓梅 发表于 2025-8-22 17:08:47

浅谈故障复盘

本文分享自天翼云开发者社区《浅谈故障复盘》,作者:朱****静
一、完善项目排障机制,做好预防性措施
1、完善项目内评审机制,关键操作执行前反复验证,如:是否抛出异常、返回值是否正确、确认操作结果是否符合预期等;
2、制定排障预案,严格按照排障流程执行操作;
3、研发人员需要输出详细的操作手册,手册详细记录操作内容、操作步骤、测试信息、回退方案等,确保现场人员根据操作手册可无误准确的执行操作;
4、增加hdfs清理回收站过期数据保留时长,降低数据丢失风险。
二、完善现场操作流程,严守部门故障修复制度
1、在程序上线前完整全面地进行checklist,变更事时至少2名研发人员在场,操作与检查同步进行;
2、检查待部署机器上的程序和新程序是否互相影响,包括环境变量、资源、工具包或本地库;
3、正式上线后,在生产环境操作时,故障发生后,严格遵守部门故障报送流程执行操作;
4、正式上线后,在生产环境操作时,上线、问题故障修复,严格遵守部门SOP及CCB变更流程操作执行。
三、提升技术能力,增强风险意识
1、研发人员具备风险识别意识,能够快速形成应急预案;
2、提升研发人员的排障能力和组件运维能力;
3、现场加强现场巡检,增加巡检频次。
 

来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!

彭水晶 发表于 2025-11-22 22:55:01

前排留名,哈哈哈

芮梦月 发表于 2025-11-30 07:12:24

谢谢分享,辛苦了

劝匠注 发表于 2025-12-15 08:50:09

yyds。多谢分享

司空娅玲 发表于 2025-12-23 00:19:02

感谢分享

讲怔 发表于 2025-12-25 08:26:54

过来提前占个楼

揭荸 发表于 2026-1-6 22:57:54

过来提前占个楼

林鱼 发表于 2026-1-14 17:18:02

东西不错很实用谢谢分享

驼娑 发表于 2026-1-18 13:12:08

感谢发布原创作品,程序园因你更精彩

庞悦 发表于 2026-1-19 02:09:59

过来提前占个楼

注思 发表于 2026-1-28 00:25:47

感谢分享,学习下。

纪音悦 发表于 2026-1-29 07:47:37

不错,里面软件多更新就更好了

印萍 发表于 2026-2-1 18:25:59

感谢发布原创作品,程序园因你更精彩

坏级尹 发表于 2026-2-4 06:53:16

谢谢分享,试用一下

坪钗 发表于 2026-2-4 10:49:04

谢谢楼主提供!

事值 发表于 2026-2-4 13:34:15

谢谢分享,辛苦了

康器 发表于 2026-2-6 09:36:47

不错,里面软件多更新就更好了

史华乐 发表于 2026-2-8 06:17:48

感谢发布原创作品,程序园因你更精彩

阴昭昭 发表于 2026-2-9 06:48:01

用心讨论,共获提升!

粒浊 发表于 2026-2-9 23:49:29

谢谢楼主提供!
页: [1] 2
查看完整版本: 浅谈故障复盘