找回密码
 立即注册
首页 业界区 业界 IQR四分位数法是什么?

IQR四分位数法是什么?

薯羞 2026-1-18 17:35:01
IQR(Interquartile Range,四分位距)四分位数法是一种统计学中用于描述数据离散程度、识别异常值的重要工具。它通过数据的四分位数(Quartiles)来刻画数据的分布特征,尤其适用于非正态分布或存在离群点的场景。以下从核心概念、计算方法、应用场景和理解要点展开说明:
一、核心概念:四分位数与IQR

1. 四分位数(Quartiles)

将一组有序数据(从小到大排列)划分为4个相等部分的三个关键分割点,分别记为:

  • Q1(第一四分位数,25%分位数):数据中25%的数值小于或等于它(即第25百分位数)。
  • Q2(第二四分位数,中位数):数据中50%的数值小于或等于它(即第50百分位数,Median)。
  • Q3(第三四分位数,75%分位数):数据中75%的数值小于或等于它(即第75百分位数)。
例如,数据集 [1, 3, 5, 7, 9, 11, 13] 的中位数是7(Q2);前半部分 [1,3,5] 的中位数是3(Q1),后半部分 [9,11,13] 的中位数是11(Q3)。
2. IQR(四分位距)

IQR = Q3 - Q1,表示中间50%数据的分布范围(即数据在Q1到Q3之间的“宽度”)。它是衡量数据离散程度的稳健指标(不受极端值影响)。
二、IQR四分位数法的核心作用:识别异常值

IQR法最常用的是通过“箱线图(Box Plot)”或“Tukey’s Fences”规则识别异常值(Outliers)。具体步骤如下:
1. 计算上下边界

以IQR为基准,定义数据的“正常范围”:

  • 下边界(Lower Bound):Q1 - 1.5×IQR
  • 上边界(Upper Bound):Q3 + 1.5×IQR
2. 判定异常值


  • 温和异常值(Mild Outliers):小于下边界或大于上边界的数据点(通常用1.5×IQR界定)。
  • 极端异常值(Extreme Outliers):小于Q1 - 3×IQR 或大于Q3 + 3×IQR 的数据点(更严格的阈值)。
逻辑:正常数据应集中在中间50%(Q1到Q3),而超出1.5倍IQR的点被视为“偏离较远的异常”。1.5倍的选择是经验性的(基于正态分布假设下约覆盖99.3%的数据,剩余0.7%视为异常)。
三、应用场景


  • 数据清洗:识别并验证离群点(如传感器误差、输入错误)。
  • 可视化分析:箱线图的核心组件(箱体表示Q1到Q3,触须延伸至非异常值的最远点,异常值单独标记)。
  • 统计描述:替代标准差(SD)衡量离散程度(尤其当数据非正态时,IQR更稳健)。
四、如何理解IQR法的优势与局限

优势:


  • 稳健性:仅依赖中间50%的数据,不受极端值干扰(标准差易受异常值影响)。
  • 普适性:适用于任何分布(无需假设数据正态)。
  • 直观性:通过四分位数直接反映数据的集中与分散趋势。
局限:

<ul>主观性:1.5倍IQR是经验阈值,不同领域可能调整(如金融风控可能用3倍)。
小样本偏差:样本量过小时(如n54.25,因此100是异常值;其他数据点均在[-3.75, 54.25]范围内。</p>
</ol>总结

IQR四分位数法通过“中间50%数据的范围”(IQR)量化离散程度,并通过1.5倍IQR的边界识别异常值。它的核心是关注数据的主体分布,忽略极端干扰,是探索性数据分析(EDA)中简单却强大的工具。理解其逻辑的关键在于把握“四分位数划分数据、IQR衡量主体波动、边界外视为异常”这一链条。

来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
您需要登录后才可以回帖 登录 | 立即注册