数据分析中的异常检测：基于Python的实现

2025-03-28 94阅读

温馨提示：这篇文章已超过391天没有更新，请注意相关的内容是否还可用！

在数据分析领域，异常检测是一项关键任务。它旨在识别数据集中与正常模式不符的数据点或事件。这些异常可能是由于测量误差、系统故障或其他非典型情况引起的。及时发现并处理这些异常对于确保数据质量、提高模型性能至关重要。

本文将探讨如何使用Python实现一种基于统计学的异常检测方法——Z分数（Z-score）法，并通过实际代码示例展示其应用过程。

1. 异常检测的基本概念

1.1 什么是异常？

在统计学中，异常是指那些与其他观测值显著不同的数据点。例如，在一组考试成绩中，如果大多数学生的分数集中在70到90分之间，而某个学生得了20分或150分，则该分数可以被视为异常。

1.2 常见的异常类型

点异常：单个数据点与其余数据明显不同。上下文异常：在一个特定上下文中被认为是异常的数据点。例如，某地区的气温在冬季突然升高到夏季水平。集体异常：一系列相关数据点共同构成了异常模式。例如，股票市场中连续几天的剧烈波动。

2. Z分数法简介

Z分数是一种标准化方法，用于衡量某个数据点距离数据集均值的标准差数。计算公式如下：

$$Z = \frac{x - \mu}{\sigma}$$

其中：

$x$ 是数据点的值，$\mu$ 是数据集的均值，$\sigma$ 是数据集的标准差。

通常，当Z分数的绝对值大于3时，我们认为该数据点是一个异常点，因为根据正态分布理论，约99.7%的数据点应位于均值±3σ范围内。

3. 使用Python实现Z分数法进行异常检测

接下来，我们将通过一个具体的例子来演示如何使用Python实现基于Z分数的异常检测。

3.1 环境准备

首先，确保已安装以下库：

numpy：用于数值计算。pandas：用于数据处理。matplotlib 和 seaborn：用于可视化。

如果没有安装这些库，可以通过pip安装：

pip install numpy pandas matplotlib seaborn

3.2 示例数据生成

假设我们有一组模拟的销售数据，表示每天的销售额（单位：千元）。我们将生成一些包含异常的数据。

import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns# 设置随机种子以保证结果可重复np.random.seed(42)# 生成模拟数据data = np.random.normal(loc=50, scale=10, size=100)  # 正态分布，均值50，标准差10anomalies = np.random.uniform(low=80, high=120, size=5)  # 异常数据data = np.concatenate([data, anomalies])  # 合并正常和异常数据np.random.shuffle(data)  # 打乱数据顺序# 转换为Pandas DataFramedf = pd.DataFrame(data, columns=['Sales'])print(df.head())

输出前几行数据：

    Sales0  61.241  55.922  46.153  52.814  58.24

3.3 计算Z分数

接下来，我们计算每个数据点的Z分数。

from scipy import stats# 计算Z分数df['Z_Score'] = stats.zscore(df['Sales'])# 查看包含Z分数的数据print(df.head())

输出结果：

    Sales   Z_Score0  61.24  0.1245671  55.92 -0.4081632  46.15 -0.3811023  52.81 -0.7173914  58.24 -0.162221

3.4 定义异常阈值并标记异常

根据Z分数的定义，我们设定阈值为3，即任何Z分数的绝对值超过3的数据点都被视为异常。

# 定义异常阈值threshold = 3# 标记异常点df['Anomaly'] = df['Z_Score'].apply(lambda x: 'Yes' if abs(x) > threshold else 'No')# 查看标记后的数据print(df.head(10))

输出结果：

    Sales   Z_Score Anomaly0  61.24  0.124567      No1  55.92 -0.408163      No2  46.15 -0.381102      No3  52.81 -0.717391      No4  58.24 -0.162221      No5  49.86 -0.016393      No6  57.35 -0.266045      No7  65.23  0.524561      No8  42.86 -0.717391      No9  53.76 -0.630151      No

3.5 可视化异常检测结果

为了更直观地理解异常检测的结果，我们可以绘制散点图，并用不同的颜色标注异常点。

# 绘制散点图plt.figure(figsize=(10, 6))sns.scatterplot(x=range(len(df)), y='Sales', data=df, hue='Anomaly', palette=['blue', 'red'])plt.title('Sales Data with Anomalies')plt.xlabel('Index')plt.ylabel('Sales (in thousand)')plt.legend(title='Anomaly')plt.show()

运行上述代码后，你将看到一张图表，其中正常数据点以蓝色显示，而异常数据点以红色突出显示。

4. 进一步优化与扩展

虽然Z分数法简单易用，但它假设数据服从正态分布。如果数据分布偏离正态性，可能需要考虑其他方法，如IQR（四分位距）法或基于机器学习的算法（如孤立森林、LOF等）。

此外，对于高维数据，可以结合降维技术（如PCA）进行异常检测。这不仅有助于减少计算复杂度，还能揭示隐藏在多维空间中的异常模式。

5. 总结

本文介绍了如何使用Python实现基于Z分数的异常检测方法。通过具体代码示例，展示了从数据生成、Z分数计算到异常标记及可视化的完整流程。尽管Z分数法适合处理低维且接近正态分布的数据，但在实际应用中，选择合适的异常检测方法需综合考虑数据特性及业务需求。

希望这篇文章能为你提供有价值的参考，帮助你在数据分析项目中更好地应对异常检测挑战！

免责声明：本文来自网站作者，不代表CIUIC的观点和立场，本站所发布的一切资源仅限用于学习和研究目的；不得将上述内容用于商业或者非法用途，否则，一切后果请用户自负。本站信息来自网络，版权争议与本站无关。您必须在下载后的24个小时之内，从您的电脑中彻底删除上述内容。如果您喜欢该程序，请支持正版软件，购买注册，得到更好的正版服务。客服邮箱：ciuic@ciuic.com

数据分析中的异常检测：基于Python的实现

1. 异常检测的基本概念

1.1 什么是异常？

1.2 常见的异常类型

2. Z分数法简介

3. 使用Python实现Z分数法进行异常检测

3.1 环境准备

3.2 示例数据生成

3.3 计算Z分数

3.4 定义异常阈值并标记异常

3.5 可视化异常检测结果

4. 进一步优化与扩展

5. 总结

相关阅读

如何挑选长期稳定的全球住宅IP：技术指南与最佳实践

CI/IC 服务器 IP 优化实战指南

购买住宅IP避坑指南：四大关键参数不可忽视

别再被 "原生 IP" 忽悠了！揭开背后的技术真相与套路

目录[+]

微信号复制成功