使用Python进行数据分析：从数据读取到可视化

2025-06-27 96阅读

在当今数据驱动的世界中，数据分析已成为各行各业不可或缺的技能。无论是金融、医疗、市场营销还是社交媒体分析，掌握数据分析技术都能帮助我们从海量信息中提取有价值的知识。本文将介绍如何使用 Python 进行基本的数据分析流程，包括数据读取、清洗、处理和可视化，并提供完整的代码示例。

我们将以一个实际案例为例：分析某电商网站的销售数据。整个流程包括以下几个步骤：

数据读取数据清洗数据处理与分析数据可视化

1. 数据读取

首先，我们需要获取并加载数据。假设我们的销售数据存储在一个名为 sales_data.csv 的 CSV 文件中，其内容如下（仅展示部分）：

Date,Product,Quantity,UnitPrice,SalesPerson2024-01-01,Product A,5,20.0,Bob2024-01-01,Product B,3,15.0,Alice2024-01-02,Product A,2,20.0,Bob2024-01-02,Product C,7,10.0,Alice

我们可以使用 Pandas 来读取这个文件。

import pandas as pd# 读取CSV文件df = pd.read_csv('sales_data.csv')# 显示前几行数据print(df.head())

输出结果为：

         Date   Product  Quantity  UnitPrice SalesPerson0  2024-01-01  Product A         5       20.0         Bob1  2024-01-01  Product B         3       15.0       Alice2  2024-01-02  Product A         2       20.0         Bob3  2024-01-02  Product C         7       10.0       Alice

2. 数据清洗

数据清洗是数据分析过程中非常重要的一步，目的是去除无效或错误的数据，使数据更准确、一致。

2.1 检查缺失值

# 检查是否有缺失值print(df.isnull().sum())

如果输出为：

Date           0Product        0Quantity       0UnitPrice      0SalesPerson    0dtype: int64

表示没有缺失值。如果有缺失值，可以使用以下方式删除或填充：

# 删除含有缺失值的行df.dropna(inplace=True)# 或者用平均值/众数等填充# df.fillna(df.mean(), inplace=True)

2.2 数据类型转换

确保每列的数据类型正确。例如，“Quantity” 和 “UnitPrice” 应该是数值型。

# 查看当前数据类型print(df.dtypes)# 如果需要，强制转换数据类型df['Quantity'] = pd.to_numeric(df['Quantity'])df['UnitPrice'] = pd.to_numeric(df['UnitPrice'])

3. 数据处理与分析

3.1 添加总销售额字段

我们可以添加一个新的字段“TotalSales”，表示每笔交易的总金额。

# 计算总销售额df['TotalSales'] = df['Quantity'] * df['UnitPrice']print(df.head())

输出结果：

         Date   Product  Quantity  UnitPrice SalesPerson  TotalSales0  2024-01-01  Product A         5       20.0         Bob       100.01  2024-01-01  Product B         3       15.0       Alice        45.02  2024-01-02  Product A         2       20.0         Bob        40.03  2024-01-02  Product C         7       10.0       Alice        70.0

3.2 按销售人员统计总销售额

# 按销售人员分组求和sales_by_person = df.groupby('SalesPerson')['TotalSales'].sum()print(sales_by_person)

输出示例：

SalesPersonAlice    115.0Bob      140.0Name: TotalSales, dtype: float64

3.3 按日期统计每日销售额

# 将日期列转换为日期格式df['Date'] = pd.to_datetime(df['Date'])# 按日期分组求和daily_sales = df.groupby('Date')['TotalSales'].sum()print(daily_sales)

输出示例：

Date2024-01-01    145.02024-01-02    110.0Name: TotalSales, dtype: float64

4. 数据可视化

数据可视化是数据分析的重要环节，它能帮助我们更直观地理解数据趋势。

4.1 可视化每日销售额

import matplotlib.pyplot as plt# 绘制每日销售额折线图plt.figure(figsize=(10, 5))daily_sales.plot(kind='line', marker='o')plt.title('Daily Sales Trend')plt.xlabel('Date')plt.ylabel('Total Sales')plt.grid(True)plt.show()

这段代码会生成一个折线图，显示每天的销售额变化情况。

4.2 销售人员销售额对比柱状图

# 绘制销售人员销售额柱状图sales_by_person.plot(kind='bar', color=['skyblue', 'salmon'])plt.title('Total Sales by Salesperson')plt.xlabel('Salesperson')plt.ylabel('Total Sales')plt.xticks(rotation=0)plt.show()

这段代码会生成一个柱状图，比较不同销售人员的总销售额。

4.3 各产品销售额分布饼图

# 按产品统计销售额product_sales = df.groupby('Product')['TotalSales'].sum()# 绘制饼图product_sales.plot(kind='pie', autopct='%1.1f%%', startangle=90, figsize=(8, 8))plt.title('Sales Distribution by Product')plt.ylabel('')plt.show()

这段代码会生成一个饼图，展示各个产品的销售额占比。

总结

通过以上几个步骤，我们完成了从数据读取、清洗、处理到可视化的完整数据分析流程。Python 提供了强大的库支持，如 Pandas 用于数据处理，Matplotlib 用于绘图，使得数据分析变得高效而简洁。

当然，这只是一个基础的入门示例。在实际项目中，数据分析可能涉及更复杂的操作，如时间序列分析、聚类、预测建模等。但掌握了这些基础工具和方法后，你已经具备了进一步深入学习的能力。

希望这篇文章能够帮助你入门数据分析，并激发你对这一领域的兴趣。如果你有兴趣，欢迎继续探索更多高级技巧，比如使用 Scikit-learn 做机器学习预测，或者使用 Seaborn 做更美观的可视化图表。

免责声明：本文来自网站作者，不代表CIUIC的观点和立场，本站所发布的一切资源仅限用于学习和研究目的；不得将上述内容用于商业或者非法用途，否则，一切后果请用户自负。本站信息来自网络，版权争议与本站无关。您必须在下载后的24个小时之内，从您的电脑中彻底删除上述内容。如果您喜欢该程序，请支持正版软件，购买注册，得到更好的正版服务。客服邮箱：ciuic@ciuic.com