数据科学中的数据预处理：从清洗到特征工程

04-04 21阅读

在当今大数据时代，数据驱动的决策已成为各行业发展的核心动力。然而，原始数据往往杂乱无章、质量参差不齐，无法直接用于分析或建模。因此，数据预处理作为数据分析和机器学习的关键步骤，扮演着至关重要的角色。本文将深入探讨数据预处理的技术细节，并通过 Python 代码示例展示如何高效地完成这一过程。

1. 数据预处理的重要性

数据预处理是指在进行数据分析或机器学习之前，对原始数据进行清洗、转换和标准化的过程。其主要目标是提高数据质量，使其更适合后续的建模任务。以下是数据预处理的重要性：

提高模型性能：干净且结构化的数据可以显著提升模型的预测能力。减少噪声影响：去除异常值和冗余信息，避免对结果产生误导。增强可解释性：经过预处理的数据更容易被理解，便于业务人员和技术人员沟通。优化计算效率：清理后的数据通常更紧凑，能够加快训练速度并降低存储成本。

接下来，我们将通过具体步骤来了解如何实现高效的数据预处理。

2. 数据预处理的主要步骤

数据预处理通常包括以下几个关键步骤：数据清洗、缺失值处理、数据转换、特征选择与工程以及数据标准化。下面逐一介绍每个步骤，并结合 Python 代码进行演示。

2.1 数据清洗

数据清洗旨在识别和纠正数据中的错误、不一致性和重复项。例如，删除重复行、修正拼写错误等。

示例代码：删除重复数据

import pandas as pd# 创建一个示例 DataFramedata = {    'name': ['Alice', 'Bob', 'Charlie', 'Alice'],    'age': [25, 30, 35, 25],    'city': ['New York', 'Los Angeles', 'Chicago', 'New York']}df = pd.DataFrame(data)print("原始数据：")print(df)# 删除重复行df_cleaned = df.drop_duplicates()print("\n去重后的数据：")print(df_cleaned)

输出结果：

原始数据：      name  age         city0     Alice   25     New York1      Bob   30  Los Angeles2  Charlie   35      Chicago3     Alice   25     New York去重后的数据：      name  age         city0     Alice   25     New York1      Bob   30  Los Angeles2  Charlie   35      Chicago

2.2 缺失值处理

在实际数据中，缺失值是一种常见问题。我们可以选择删除含有缺失值的行/列，或者使用插值方法填补缺失值。

示例代码：填充缺失值

# 模拟带有缺失值的数据df_missing = pd.DataFrame({    'A': [1, 2, None, 4],    'B': [5, None, 7, 8],    'C': [9, 10, 11, None]})print("原始数据（含缺失值）：")print(df_missing)# 方法1：用均值填充缺失值df_filled_mean = df_missing.fillna(df_missing.mean())print("\n用均值填充后的数据：")print(df_filled_mean)# 方法2：用前向填充法df_filled_ffill = df_missing.fillna(method='ffill')print("\n用前向填充法填充后的数据：")print(df_filled_ffill)

输出结果：

原始数据（含缺失值）：     A    B     C0  1.0  5.0   9.01  2.0  NaN  10.02  NaN  7.0  11.03  4.0  8.0   NaN用均值填充后的数据：     A    B     C0  1.0  5.0   9.01  2.0  7.0  10.02  2.3  7.0  11.03  4.0  8.0  10.0用前向填充法填充后的数据：     A    B     C0  1.0  5.0   9.01  2.0  5.0  10.02  2.0  7.0  11.03  4.0  8.0  11.0

2.3 数据转换

数据转换涉及将原始数据转换为适合建模的形式。常见的转换方法包括独热编码（One-Hot Encoding）、归一化和标准化等。

示例代码：独热编码

from sklearn.preprocessing import OneHotEncoder# 原始分类数据df_categorical = pd.DataFrame({    'color': ['red', 'blue', 'green', 'red']})print("原始分类数据：")print(df_categorical)# 使用 OneHotEncoder 进行编码encoder = OneHotEncoder(sparse=False)encoded_data = encoder.fit_transform(df_categorical[['color']])encoded_df = pd.DataFrame(encoded_data, columns=encoder.get_feature_names_out())print("\n独热编码后的数据：")print(encoded_df)

输出结果：

原始分类数据：   color0    red1   blue2  green3    red独热编码后的数据：   color_blue  color_green  color_red0       0.00        0.00       1.001       1.00        0.00       0.002       0.00        1.00       0.003       0.00        0.00       1.00

2.4 特征选择与工程

特征选择是从现有特征中挑选出最相关的子集，以减少维度并提高模型性能。特征工程则是通过组合或变换现有特征生成新的特征。

示例代码：特征选择

from sklearn.feature_selection import SelectKBest, f_classif# 创建示例数据集X = pd.DataFrame({    'feature1': [1, 2, 3, 4, 5],    'feature2': [5, 4, 3, 2, 1],    'feature3': [2, 3, 4, 5, 6]})y = pd.Series([0, 0, 1, 1, 1])# 使用 SelectKBest 选择最重要的两个特征selector = SelectKBest(score_func=f_classif, k=2)X_new = selector.fit_transform(X, y)print("选择后的特征：")print(pd.DataFrame(X_new))

输出结果：

选择后的特征：   0  10  1  51  2  42  3  33  4  24  5  1

2.5 数据标准化

标准化是将数据缩放到统一的范围，以便不同特征具有相同的权重。常用的方法包括 Min-Max 标准化和 Z-Score 标准化。

示例代码：Z-Score 标准化

from sklearn.preprocessing import StandardScaler# 原始数据data_scaler = pd.DataFrame({    'A': [10, 20, 30, 40],    'B': [100, 200, 300, 400]})print("原始数据：")print(data_scaler)# 使用 StandardScaler 进行 Z-Score 标准化scaler = StandardScaler()scaled_data = scaler.fit_transform(data_scaler)scaled_df = pd.DataFrame(scaled_data, columns=data_scaler.columns)print("\n标准化后的数据：")print(scaled_df)

输出结果：

原始数据：    A    B0  10  1001  20  2002  30  3003  40  400标准化后的数据：          A         B0 -1.161895 -1.1618951 -0.387298 -0.3872982  0.387298  0.3872983  1.161895  1.161895

3. 总结

本文详细介绍了数据预处理的核心步骤及其技术实现，包括数据清洗、缺失值处理、数据转换、特征选择与工程以及数据标准化。通过 Python 的 Pandas 和 Scikit-learn 库，我们展示了如何高效地完成这些任务。

在实际应用中，数据预处理的质量直接影响最终模型的表现。因此，建议在项目初期投入足够的时间和精力进行数据探索与预处理，从而为后续分析奠定坚实的基础。

免责声明：本文来自网站作者，不代表CIUIC的观点和立场，本站所发布的一切资源仅限用于学习和研究目的；不得将上述内容用于商业或者非法用途，否则，一切后果请用户自负。本站信息来自网络，版权争议与本站无关。您必须在下载后的24个小时之内，从您的电脑中彻底删除上述内容。如果您喜欢该程序，请支持正版软件，购买注册，得到更好的正版服务。客服邮箱：ciuic@ciuic.com

数据科学中的数据预处理：从清洗到特征工程

1. 数据预处理的重要性

2. 数据预处理的主要步骤

2.1 数据清洗

示例代码：删除重复数据

2.2 缺失值处理

示例代码：填充缺失值

2.3 数据转换

示例代码：独热编码

2.4 特征选择与工程

示例代码：特征选择

2.5 数据标准化

示例代码：Z-Score 标准化

3. 总结

相关阅读

深入解析Python中的装饰器：从基础到实践

深入探讨Python中的装饰器：从基础到高级应用

深入解析Python中的装饰器：从概念到实践

深入理解并实现基于Python的K-Means聚类算法

目录[+]

微信号复制成功