深入探讨：使用Python实现数据清洗与预处理

04-15 56阅读

在数据分析和机器学习项目中，数据清洗与预处理是至关重要的步骤。无论数据来源如何，原始数据通常包含噪声、缺失值、异常值等问题，这些问题如果未被妥善处理，可能会对后续的分析或模型训练产生严重影响。本文将详细探讨如何使用Python进行数据清洗与预处理，并通过代码示例展示关键步骤。

我们将使用pandas库来处理数据，因为它提供了强大的数据操作功能，非常适合用于数据清洗任务。此外，我们还将结合numpy和matplotlib等库来辅助处理和可视化数据。

1. 数据清洗概述

数据清洗是指对原始数据进行处理，使其更适合作为分析或建模的输入。这一过程通常包括以下几个方面：

处理缺失值：填补或删除缺失数据。去除重复数据：确保数据集中没有重复记录。格式化数据：统一数据格式，例如日期、字符串大小写等。处理异常值：检测并处理可能影响结果的异常值。特征工程：创建新的特征以提高模型性能。

接下来，我们将通过一个具体的例子来演示这些步骤。

2. 示例数据集

为了便于说明，我们假设有一个关于用户购买行为的数据集，包含以下字段：

user_id: 用户IDpurchase_date: 购买日期product_name: 商品名称price: 商品价格quantity: 购买数量

我们将从加载数据开始，并逐步完成数据清洗与预处理。

2.1 加载数据

首先，我们需要加载数据。假设数据存储在一个CSV文件中，我们可以使用pandas的read_csv函数来加载它。

import pandas as pd# 加载数据data = pd.read_csv('user_purchases.csv')# 查看前几行数据print(data.head())

2.2 检查数据基本信息

在开始清洗之前，了解数据的基本信息是非常重要的。这包括数据类型、缺失值情况等。

# 查看数据的基本信息print(data.info())# 统计每列的缺失值数量missing_values = data.isnull().sum()print(missing_values)

3. 处理缺失值

根据检查结果，我们可以发现某些列可能存在缺失值。对于缺失值，我们有几种处理方式：

删除缺失值：如果缺失值比例较小，可以直接删除相关行或列。填充缺失值：使用均值、中位数或其他方法填充缺失值。

在这里，我们选择用均值填充price列的缺失值，并删除product_name列中缺失值对应的行。

# 填充price列的缺失值mean_price = data['price'].mean()data['price'].fillna(mean_price, inplace=True)# 删除product_name列中缺失值对应的行data.dropna(subset=['product_name'], inplace=True)

4. 去除重复数据

重复数据可能会导致分析结果失真，因此需要将其删除。

# 检查是否有重复行duplicates = data.duplicated().sum()print(f"Number of duplicates: {duplicates}")# 删除重复行data.drop_duplicates(inplace=True)

5. 格式化数据

确保所有数据都以正确的格式存储。例如，日期应该以标准的日期格式存储，而不是字符串。

# 将purchase_date转换为日期格式data['purchase_date'] = pd.to_datetime(data['purchase_date'])# 检查转换结果print(data['purchase_date'].dtype)

6. 处理异常值

异常值可能会对统计分析或模型训练产生不利影响。可以通过可视化或统计方法检测异常值，并决定是否删除或调整它们。

import matplotlib.pyplot as plt# 绘制price的箱线图以检测异常值plt.boxplot(data['price'])plt.title('Price Distribution')plt.show()# 假设我们决定移除大于3倍四分位距的值Q1 = data['price'].quantile(0.25)Q3 = data['price'].quantile(0.75)IQR = Q3 - Q1# 定义异常值范围lower_bound = Q1 - 1.5 * IQRupper_bound = Q3 + 1.5 * IQR# 移除异常值data = data[(data['price'] >= lower_bound) & (data['price'] <= upper_bound)]

7. 特征工程

特征工程是提升模型性能的重要手段。在这里，我们可以创建一个新的特征total_cost，表示每个用户的总消费金额。

# 创建total_cost列data['total_cost'] = data['price'] * data['quantity']# 查看新增列print(data[['price', 'quantity', 'total_cost']].head())

8. 总结

通过上述步骤，我们完成了对数据的基本清洗与预处理。完整的代码如下：

import pandas as pdimport numpy as npimport matplotlib.pyplot as plt# 加载数据data = pd.read_csv('user_purchases.csv')# 检查数据基本信息print(data.info())missing_values = data.isnull().sum()print(missing_values)# 处理缺失值mean_price = data['price'].mean()data['price'].fillna(mean_price, inplace=True)data.dropna(subset=['product_name'], inplace=True)# 去除重复数据duplicates = data.duplicated().sum()print(f"Number of duplicates: {duplicates}")data.drop_duplicates(inplace=True)# 格式化数据data['purchase_date'] = pd.to_datetime(data['purchase_date'])# 处理异常值plt.boxplot(data['price'])plt.title('Price Distribution')plt.show()Q1 = data['price'].quantile(0.25)Q3 = data['price'].quantile(0.75)IQR = Q3 - Q1lower_bound = Q1 - 1.5 * IQRupper_bound = Q3 + 1.5 * IQRdata = data[(data['price'] >= lower_bound) & (data['price'] <= upper_bound)]# 特征工程data['total_cost'] = data['price'] * data['quantity']# 查看最终数据print(data.head())

通过这些步骤，我们可以确保数据的质量，从而为后续的分析或建模提供可靠的基础。数据清洗与预处理虽然繁琐，但却是任何数据分析项目的基石。掌握这些技能，能够显著提高数据分析的效率和准确性。

免责声明：本文来自网站作者，不代表CIUIC的观点和立场，本站所发布的一切资源仅限用于学习和研究目的；不得将上述内容用于商业或者非法用途，否则，一切后果请用户自负。本站信息来自网络，版权争议与本站无关。您必须在下载后的24个小时之内，从您的电脑中彻底删除上述内容。如果您喜欢该程序，请支持正版软件，购买注册，得到更好的正版服务。客服邮箱：ciuic@ciuic.com

深入探讨：使用Python实现数据清洗与预处理

1. 数据清洗概述

2. 示例数据集

2.1 加载数据

2.2 检查数据基本信息

3. 处理缺失值

4. 去除重复数据

5. 格式化数据

6. 处理异常值

7. 特征工程

8. 总结

相关阅读

GPU虚拟化黑科技：Ciuic如何实现DeepSeek显存超分

128核CPU + 8卡GPU：Ciuic怪兽实例如何碾压DeepSeek训练任务

GPU虚拟化黑科技：Ciuic如何实现DeepSeek显存超分

破防价！年付99元的香港服务器竟带DDoS防护：技术解析与使用指南

目录[+]

微信号复制成功