使用Python进行数据分析：从数据清洗到可视化

2025-06-28 93阅读

在当今这个数据驱动的时代，数据分析已经成为各行各业不可或缺的一部分。无论是在金融、医疗、市场营销还是社交媒体领域，数据分析都能帮助我们更好地理解数据背后的信息，并做出科学决策。Python作为一门功能强大且易于学习的编程语言，在数据分析领域有着广泛的应用。

本文将介绍如何使用Python进行数据分析，包括数据清洗、数据处理和数据可视化三个主要步骤。我们将通过一个实际案例来演示整个分析过程，并提供完整的代码示例。

环境准备

在开始之前，请确保你已经安装了以下Python库：

pandas：用于数据处理numpy：用于数值计算matplotlib 和 seaborn：用于数据可视化

你可以使用以下命令安装这些库（如果尚未安装）：

pip install pandas numpy matplotlib seaborn

数据加载与初步探索

我们以一个虚构的销售数据集为例，数据包含以下字段：

OrderID：订单编号Product：产品名称Category：产品类别Sales：销售额Quantity：销售数量Discount：折扣率Profit：利润

首先，我们使用pandas读取CSV文件并查看前几行数据：

import pandas as pd# 加载数据df = pd.read_csv('sales_data.csv')# 查看前5行数据print(df.head())

输出示例：

OrderID	Product	Category	Sales	Quantity	Discount	Profit
1001	Laptop A	Electronics	999.99	2	0.1	300.00
1002	Mouse B	Electronics	19.99	5	0.0	5.00
1003	Chair C	Furniture	149.99	1	0.2	-20.00
1004	Keyboard D	Electronics	49.99	3	0.05	10.00
1005	Table E	Furniture	299.99	1	0.0	50.00

接下来，我们可以查看数据的基本信息：

# 查看数据维度print("数据维度：", df.shape)# 检查缺失值print("\n缺失值统计：")print(df.isnull().sum())# 数据类型检查print("\n数据类型：")print(df.dtypes)

数据清洗

数据清洗是数据分析过程中非常重要的一步。在这个阶段，我们需要处理缺失值、异常值以及格式不一致的问题。

1. 处理缺失值

如果某些列存在缺失值，我们可以选择删除或填充：

# 删除缺失值较多的行df.dropna(subset=['Product', 'Category'], inplace=True)# 填充Sales和Profit的缺失值为0df['Sales'].fillna(0, inplace=True)df['Profit'].fillna(0, inplace=True)

2. 处理异常值

我们可以使用箱线图识别销售额中的异常值：

import seaborn as snsimport matplotlib.pyplot as pltplt.figure(figsize=(8, 6))sns.boxplot(x=df['Sales'])plt.title('Sales Boxplot')plt.show()

对于异常值，我们可以使用IQR方法进行处理：

Q1 = df['Sales'].quantile(0.25)Q3 = df['Sales'].quantile(0.75)IQR = Q3 - Q1# 过滤掉异常值df = df[(df['Sales'] >= Q1 - 1.5 * IQR) & (df['Sales'] <= Q3 + 1.5 * IQR)]

3. 数据类型转换

有时我们需要将某些列的数据类型进行转换，例如将折扣率转换为浮点型：

df['Discount'] = pd.to_numeric(df['Discount'], errors='coerce')

数据处理与分析

在完成数据清洗之后，我们可以对数据进行进一步处理和分析。

1. 添加新特征

我们可以添加一些新的特征来丰富数据集，例如每笔订单的单价：

df['UnitPrice'] = df['Sales'] / df['Quantity']

2. 分组聚合分析

我们可以按产品类别分组，计算总销售额、平均利润等指标：

category_summary = df.groupby('Category').agg(    TotalSales=('Sales', 'sum'),    AvgProfit=('Profit', 'mean'),    Count=('OrderID', 'count')).reset_index()print(category_summary)

输出示例：

Category	TotalSales	AvgProfit	Count
Electronics	250000.00	45.20	1200
Furniture	120000.00	12.50	800

3. 排序与筛选

我们可以找出销售额最高的前10个产品：

top_products = df.groupby('Product')['Sales'].sum().sort_values(ascending=False).head(10)print(top_products)

数据可视化

数据可视化可以帮助我们更直观地理解数据。我们使用matplotlib和seaborn来进行图表绘制。

1. 销售额分布直方图

plt.figure(figsize=(10, 6))sns.histplot(df['Sales'], bins=30, kde=True)plt.title('Sales Distribution')plt.xlabel('Sales Amount')plt.ylabel('Frequency')plt.show()

2. 不同类别的销售额对比柱状图

plt.figure(figsize=(10, 6))sns.barplot(x='Category', y='TotalSales', data=category_summary)plt.title('Total Sales by Category')plt.xlabel('Category')plt.ylabel('Total Sales')plt.show()

3. 折线图展示不同月份的销售额趋势（假设数据中有一个Date字段）

# 假设数据中包含日期字段'OrderDate'df['OrderDate'] = pd.to_datetime(df['OrderDate'])df['Month'] = df['OrderDate'].dt.monthmonthly_sales = df.groupby('Month')['Sales'].sum().reset_index()plt.figure(figsize=(10, 6))sns.lineplot(x='Month', y='Sales', data=monthly_sales, marker='o')plt.title('Monthly Sales Trend')plt.xlabel('Month')plt.ylabel('Total Sales')plt.grid(True)plt.show()

与建议

通过对销售数据的清洗、处理和可视化分析，我们可以得出以下几点：

电子产品类别的销售额最高，但利润波动较大；家具类产品虽然销售额较低，但利润较稳定；某些产品的销量和利润不成正比，可能需要重新评估定价策略；销售高峰集中在某些月份，可以据此制定促销计划。

根据以上分析结果，企业可以采取如下措施：

对高利润低销量的产品加大推广力度；对于亏损产品考虑下架或优化成本；在销售高峰期提前备货，提升客户满意度；对销售人员进行培训，提高整体利润率。

完整代码汇总

以下是本篇文章中所有使用的Python代码汇总：

import pandas as pdimport numpy as npimport seaborn as snsimport matplotlib.pyplot as plt# 1. 加载数据df = pd.read_csv('sales_data.csv')# 2. 初步探索print(df.head())print("数据维度：", df.shape)print("\n缺失值统计：")print(df.isnull().sum())print("\n数据类型：")print(df.dtypes)# 3. 数据清洗df.dropna(subset=['Product', 'Category'], inplace=True)df['Sales'].fillna(0, inplace=True)df['Profit'].fillna(0, inplace=True)Q1 = df['Sales'].quantile(0.25)Q3 = df['Sales'].quantile(0.75)IQR = Q3 - Q1df = df[(df['Sales'] >= Q1 - 1.5 * IQR) & (df['Sales'] <= Q3 + 1.5 * IQR)]df['Discount'] = pd.to_numeric(df['Discount'], errors='coerce')# 4. 特征工程df['UnitPrice'] = df['Sales'] / df['Quantity']# 5. 分析category_summary = df.groupby('Category').agg(    TotalSales=('Sales', 'sum'),    AvgProfit=('Profit', 'mean'),    Count=('OrderID', 'count')).reset_index()print(category_summary)top_products = df.groupby('Product')['Sales'].sum().sort_values(ascending=False).head(10)print(top_products)# 6. 可视化plt.figure(figsize=(10, 6))sns.histplot(df['Sales'], bins=30, kde=True)plt.title('Sales Distribution')plt.xlabel('Sales Amount')plt.ylabel('Frequency')plt.show()plt.figure(figsize=(10, 6))sns.barplot(x='Category', y='TotalSales', data=category_summary)plt.title('Total Sales by Category')plt.xlabel('Category')plt.ylabel('Total Sales')plt.show()# 假设有日期字段df['OrderDate'] = pd.to_datetime(df['OrderDate'])df['Month'] = df['OrderDate'].dt.monthmonthly_sales = df.groupby('Month')['Sales'].sum().reset_index()plt.figure(figsize=(10, 6))sns.lineplot(x='Month', y='Sales', data=monthly_sales, marker='o')plt.title('Monthly Sales Trend')plt.xlabel('Month')plt.ylabel('Total Sales')plt.grid(True)plt.show()

本文通过一个完整的销售数据分析流程，展示了如何使用Python进行数据清洗、处理和可视化分析。希望读者能够从中掌握基本的数据分析技能，并将其应用到实际项目中。

随着数据量的不断增长和业务需求的日益复杂，数据分析将成为越来越重要的一项技能。Python凭借其强大的生态和简洁的语法，必将在未来继续发挥重要作用。

免责声明：本文来自网站作者，不代表CIUIC的观点和立场，本站所发布的一切资源仅限用于学习和研究目的；不得将上述内容用于商业或者非法用途，否则，一切后果请用户自负。本站信息来自网络，版权争议与本站无关。您必须在下载后的24个小时之内，从您的电脑中彻底删除上述内容。如果您喜欢该程序，请支持正版软件，购买注册，得到更好的正版服务。客服邮箱：ciuic@ciuic.com

使用Python进行数据分析：从数据清洗到可视化

环境准备

数据加载与初步探索

数据清洗

1. 处理缺失值

2. 处理异常值

3. 数据类型转换

数据处理与分析

1. 添加新特征

2. 分组聚合分析

3. 排序与筛选

数据可视化

1. 销售额分布直方图

2. 不同类别的销售额对比柱状图

3. 折线图展示不同月份的销售额趋势（假设数据中有一个Date字段）

与建议

完整代码汇总

相关阅读

服务器搭配全球住宅IP的最优方案：技术解析与实践指南

住宅IP vs 机房IP：为何住宅IP在数据收录中占据绝对优势

警惕！广播段 IP 地址可能成为您的业务定时炸弹

千万别乱买！这种 IP 一用就封——技术解析与解决方案

目录[+]

微信号复制成功