登录
/
注册
首页
论坛
其它
首页
科技
业界
安全
程序
广播
Follow
关于
导读
排行榜
资讯
发帖说明
登录
/
注册
账号
自动登录
找回密码
密码
登录
立即注册
搜索
搜索
关闭
CSDN热搜
程序园
精品问答
技术交流
资源下载
本版
帖子
用户
软件
问答
教程
代码
写记录
写博客
小组
VIP申请
VIP网盘
网盘
联系我们
发帖说明
道具
勋章
任务
淘帖
动态
分享
留言板
导读
设置
我的收藏
退出
腾讯QQ
微信登录
返回列表
首页
›
业界区
›
安全
›
读数据质量管理:数据可靠性与数据质量问题解决之道07异 ...
读数据质量管理:数据可靠性与数据质量问题解决之道07异常检测
[ 复制链接 ]
凤患更
2025-6-10 19:12:21
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
1. 监控和异常检测
1.1. 在数据方面,所有明面上的测试和数据质量检查都不能完全保护你免受数据宕机的影响
1.1.1. 宕机可能由于各种原因而出现在管道内部和外部的各个阶段
1.1.2. 这些原因通常与数据本身无关
1.2. 要了解数据何时中断,最好的做法是依靠数据监控,特别是异常检测技术
1.2.1. 在容量、新鲜度、分布和其他值没有达到预期阈值时被及时识别
1.3. 在知道有一个好的分类(或者说分类模型)之前,你需要知道什么是好的分类
2. 异常检测
2.1. 指的是识别出偏离常态的事件或观察结果
2.2. 对于许多数据团队来说,异常检测都被认为是一种“有则更好”而不是“必须要有”的东西
2.3. 团队必须同时采取主动方式和被动方式来解决数据质量问题
2.4. 监控并发出关于数据可观测性支柱(新鲜度、容量、分布和模式)的警报
2.5. 要明白对于任何异常检测问题来说都没有完美的分类器
3. 已知的未知和未知的未知
3.1. 你可以预测的(已知的未知)和你无法预测的(未知的未知)
3.1.1. 测试和断路器可以处理许多已知的未知
3.1.2. 在涉及未知的未知时,监控和异常检测可以作为处理的基础
3.2. 已知的未知是你可以轻松预测的问题
3.2.1. 空值
3.2.2. 特有的新鲜度问题
3.2.3. 由定期更新的系统触发的模式变更
3.2.4. 可以在它们导致下游出现问题前把它们解决
3.3. 未知的未知指的是即使通过最全面的测试也无法解决的数据宕机
3.3.1. 是整个数据管道中出现的问题
3.3.2. 不仅仅是特定测试所涵盖的部分
3.3.3. 关键字段中的分布异常导致Tableau仪表板出现故障
3.3.4. 其他团队进行的JSON模式变更
3.3.5. 对ETL(或反向ETL)的意外更改导致测试无法运行而不良数据未被发现
3.3.6. 直到几周后才被注意到的不完整或陈旧数据,影响了关键营销指标
3.3.7. 代码变更导致API停止收集为重要新产品提供的数据
3.3.8. 随时间推移产生的数据漂移
3.3.8.1. ETL作业通常不考虑给定表中已经存在的数据
3.4. 利用监控和异常检测来识别并警告偏离给定数据管道历史预期的数据行为。通过了解“好”数据的样子,就会更容易主动识别出“坏”数据
4. 构建异常检测的算法
4.1. 语言和工具
4.1.1. SQLite和SQL
4.1.2. Jupyter Notebooks
4.1.3. Python
4.2. 新鲜度监控
4.2.1. 可以为我们提供一个强有力的指标来说明关键数据资产上次更新的时间
4.2.2. 如果一份按小时定期更新的报告突然看起来很陈旧,这类异常应该给我们提供了一个强烈的信号,表明某些地方是不准确的或者可能是错误的
4.2.3. SQL不存储元数据,所以为了在这种追溯环境中对新鲜度进行可视化,我们需要自己跟踪这些信息
4.2.3.1. 到底多少天未更新数据就算太久没更新了呢?
4.3. 分布
4.3.1. 评估数据的字段级分布健康状况
4.3.2. 分布会告诉我们数据的所有期望值,以及每个值出现的频率
4.3.3. 在许多情况下,一定程度的数据不完整是可以接受的,但如果10%的空值率变成了90%,那我们就必须要知道到底发生了什么
4.3.4. 假设观测值数据集来自符合数学规则的基准分布
4.3.4.1. 样本分布
4.3.4.2. 真实分布
4.3.5. 中心极限定理
4.3.5.1. 随着样本数量的增加,独立生成的随机样本的分布会接近于某个分布
4.3.5.2. 如果在一个均值为μ、标准差为σ的给定数据集中有一个足够随机的样本,则样本均值的分布将近似正态分布
4.3.5.3. 正态分布或高斯分布是统计课中大家都很熟悉的著名钟形曲线
> 4.3.5.3.1. 应用高斯分布可能会得到一种进行异常检测的初始方法> 4.3.5.3.2. 中心极限定理陈述了许多人都会忽略的一个数据生成过程中的关键特征:独立、随机的观测值在极限情况下产生正态分布> 4.3.5.3.3. 在商业智能数据中,观测值结果往往具有高度的相关性,并与其他变量相混淆
复制代码
4.3.5.4. “异常”和“有趣”的观测值之间是有区别的,这不能完全用纯粹的统计思维来理解
> 4.3.5.4.1. 时间序列包含重要的前后背景信息 > 4.3.5.4.1.1. 季节性是指时间序列在一定时间间隔内观察到可预测的波动趋势> 4.3.5.4.2. 并非所有的异常观测值都是有趣的,它们并不能帮助我们识别并纠正数据宕机
复制代码
4.3.6. 如果空值率的“峰值”代表着比之前平均值的增加,则更应令人担忧
4.3.6.1. 当空值率突然下降时,可能不值得进行监控,而检测空值率是否增加的价值是显而易见的
4.4. 良好的异常检测肯定是数据可观测性难题的一部分,但这并不是全部
4.4.1. 同样重要的还有前后的背景信息
5. 构建监控器
5.1. 模式变更和沿袭的异常检测
5.1.1. 跟踪模式变更和沿袭可以让你前所未有地了解数据的健康状况和使用模式,提供有关何人、何事、何地、何因以及如何使用你数据的关键前后上下文信息
5.1.2. 其实在理解数据宕机对下游(通常也是现实世界)的影响时,模式和沿袭是两个最重要的数据可观测性支柱
5.2. 当对数据结构进行更改时,就会发生模式变更
5.2.1. 模式变更可以指关于数据的任何事
5.2.1.1. 添加新的API端点
5.2.1.2. 假定已弃用的字段尚未被弃用
5.2.1.3. 增加或减少列、行或整个表
5.2.2. 有版本历史
5.2.2.1. 模式变更很容易悄悄地突然降临到我们身上
5.2.3. 识别发出表明管道健康的信号的有用元数据
5.2.3.1. 跟踪它,同时构建检测器来提醒我们潜在的问题
5.2.3.2. 提供额外的表是跟踪模式的一种方法,但还有许多其他不同的方法
5.3. 对沿袭进行可视化
5.3.1. 沿袭是数据可观测性5个支柱中最全面的一个
5.3.2. 沿袭通过告诉我们哪些下游来源可能受到影响以及哪些上游来源可能是根本原因这两件事来贯穿整个事件
5.3.3. 沿袭信息可以帮助我们确定事件的根本原因并更快地解决它们
5.4. 调查数据异常
5.4.1. 解释仅使用发生了数据异常的事实
5.4.2. 解释使用了沿袭,根据表和字段之间的依赖关系,将事件置于整个前后上下文中并确定了问题的根本原因
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
数据
质量管理
可靠性
质量
问题
相关帖子
AlmaLinux下mysql 8安装与数据迁移
详解 MicroPython 驱动中数据与业务逻辑的分离设计
像Git一样管理数据:深入解析数据库并发控制MVCC的实现
Hadoop大数据在2025-2026年和AI智能问数平台的规划与实践
从海量数据到 AI 决策的落地方法
搞懂“元数据”:给数据办一张“身份证”
期货数据对接指南,用于获取黄金、白银、原油等大宗商品的数据。
期货数据对接指南,用于获取黄金、白银、原油等大宗商品的数据。
使用i2s遇到的问题
DBLens 的数据安全、登录方式与离线使用说明
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
照妖镜
相关推荐
安全
AlmaLinux下mysql 8安装与数据迁移
1
337
菅舛
2025-12-07
安全
详解 MicroPython 驱动中数据与业务逻辑的分离设计
0
304
那虻
2025-12-07
业界
像Git一样管理数据:深入解析数据库并发控制MVCC的实现
1
84
虾氲叱
2025-12-08
业界
Hadoop大数据在2025-2026年和AI智能问数平台的规划与实践
0
699
挚魉
2025-12-09
业界
从海量数据到 AI 决策的落地方法
0
773
梁宁
2025-12-09
业界
搞懂“元数据”:给数据办一张“身份证”
1
991
费卿月
2025-12-11
安全
期货数据对接指南,用于获取黄金、白银、原油等大宗商品的数据。
0
823
府扔影
2025-12-11
安全
期货数据对接指南,用于获取黄金、白银、原油等大宗商品的数据。
1
34
赏勿
2025-12-11
安全
使用i2s遇到的问题
1
378
肇默步
2025-12-11
安全
DBLens 的数据安全、登录方式与离线使用说明
0
105
郦惠
2025-12-16
回复
(2)
左丘雅秀
2025-11-1 04:24:39
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
热心回复!
豌畔丛
5 天前
回复
使用道具
举报
照妖镜
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
新版吗?好像是停更了吧。
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
回复
本版积分规则
回帖并转播
回帖后跳转到最后一页
签约作者
程序园优秀签约作者
发帖
凤患更
5 天前
关注
0
粉丝关注
15
主题发布
板块介绍填写区域,请于后台编辑
财富榜{圆}
3934307807
991124
anyue1937
9994893
kk14977
6845357
4
xiangqian
638210
5
韶又彤
9997
6
宋子
9983
7
闰咄阅
9993
8
刎唇
9993
9
俞瑛瑶
9998
10
蓬森莉
9951
查看更多
今日好文热榜
495
不止编程!Claude Code 跨界应用指南:5 大
19
VictoriaMetrics 尝鲜
959
高频OTA时代,如何用SIL测试兼顾软件可靠性
864
ROS2概念之分布式通信
702
通过.ovf和.vmdk导入VMware虚拟机
617
酷狗音乐api接口抓取 | 音乐管理系统
650
吴恩达深度学习课程四:计算机视觉 第二周
235
为什么 Iceberg 在数据湖领域这么火
358
.NET周刊【11月第5期 2025-11-30】
985
.NET周刊【11月第5期 2025-11-30】
72
HTML Learn Data Day 0
568
线程池和高并发
816
Flink学习笔记:反压
698
JUnit 5 中的 @ClassTemplate 实战指南
230
Java 25 (LTS) 重磅发布:AI、性能、安全全
286
Java 25 (LTS) 重磅发布:AI、性能、安全全
285
负载均衡的概念、分类、算法、健康检查机制
739
Prompt 工程
501
Prompt 工程
761
Gemini 3.0 Pro 迁移避坑指南:OpenAI API