数据科学中的时间序列分析与预测：Python 实现

2025-03-30 82阅读

时间序列分析和预测是数据科学领域中非常重要的一部分。它广泛应用于金融、气象、销售预测、能源消耗等领域。本文将深入探讨时间序列分析的基本概念，并通过 Python 代码实现一个完整的预测流程，包括数据预处理、模型构建和结果评估。

时间序列分析简介

时间序列是一组按时间顺序排列的数据点。它的主要特点是每个数据点都与其时间戳相关联。时间序列分析的目标是从历史数据中提取模式，并利用这些模式对未来进行预测。

时间序列通常包含以下几种成分：

趋势（Trend）：数据的长期方向。季节性（Seasonality）：周期性的波动。周期性（Cyclical）：非固定的周期波动。噪声（Noise）：随机变化。

在实际应用中，我们通常需要对时间序列进行分解，以更好地理解其组成部分，并为预测提供更清晰的输入。

数据预处理

在进行时间序列分析之前，数据预处理是一个非常重要的步骤。这包括缺失值处理、平滑处理、标准化等。我们将使用 Python 的 Pandas 库来进行这些操作。

安装必要的库

pip install pandas numpy matplotlib statsmodels scikit-learn

导入库

import pandas as pdimport numpy as npimport matplotlib.pyplot as pltfrom statsmodels.tsa.seasonal import seasonal_decomposefrom sklearn.metrics import mean_squared_errorfrom statsmodels.tsa.arima.model import ARIMA

加载数据

假设我们有一个包含每日销售额的时间序列数据集。

# 假设我们有一个CSV文件，包含日期和销售额data = pd.read_csv('sales_data.csv', parse_dates=['date'], index_col='date')# 查看前几行数据print(data.head())

处理缺失值

# 检查是否有缺失值print(data.isnull().sum())# 如果有缺失值，我们可以选择填充或删除data['sales'] = data['sales'].fillna(method='ffill')  # 使用前向填充

数据可视化

# 绘制原始时间序列plt.figure(figsize=(10,6))plt.plot(data.index, data['sales'], label='Original Data')plt.title('Daily Sales Over Time')plt.xlabel('Date')plt.ylabel('Sales')plt.legend()plt.show()

时间序列分解

为了更好地理解时间序列的组成，我们可以对其进行分解。

# 进行时间序列分解decomposition = seasonal_decompose(data['sales'], model='additive', period=30)# 绘制分解结果plt.figure(figsize=(10,8))plt.subplot(411)plt.plot(data.index, decomposition.observed, label='Observed')plt.legend()plt.subplot(412)plt.plot(data.index, decomposition.trend, label='Trend')plt.legend()plt.subplot(413)plt.plot(data.index, decomposition.seasonal, label='Seasonal')plt.legend()plt.subplot(414)plt.plot(data.index, decomposition.resid, label='Residual')plt.legend()plt.tight_layout()plt.show()

模型构建

我们将使用 ARIMA（自回归积分移动平均）模型来预测未来的销售额。

划分训练集和测试集

# 将数据划分为训练集和测试集train_size = int(len(data) * 0.8)train, test = data[:train_size], data[train_size:]print(f'Training set size: {len(train)}')print(f'Testing set size: {len(test)}')

构建和拟合 ARIMA 模型

ARIMA 模型需要三个参数：p（自回归项数）、d（差分次数）、q（移动平均项数）。这些参数可以通过 ACF 和 PACF 图来确定，也可以通过网格搜索来优化。

# 构建 ARIMA 模型 (p=5, d=1, q=0)model = ARIMA(train['sales'], order=(5, 1, 0))model_fit = model.fit()# 输出模型摘要print(model_fit.summary())

预测未来值

# 使用模型进行预测forecast = model_fit.forecast(steps=len(test))# 将预测结果转换为 DataFrameforecast_df = pd.DataFrame(forecast, index=test.index, columns=['forecast'])# 绘制预测结果plt.figure(figsize=(10,6))plt.plot(train.index, train['sales'], label='Training Data')plt.plot(test.index, test['sales'], label='Actual Test Data')plt.plot(forecast_df.index, forecast_df['forecast'], label='Forecasted Data', linestyle='--')plt.title('Sales Forecasting with ARIMA')plt.xlabel('Date')plt.ylabel('Sales')plt.legend()plt.show()

模型评估

为了评估模型的性能，我们可以计算均方误差（MSE）和均方根误差（RMSE）。

# 计算 MSE 和 RMSEmse = mean_squared_error(test['sales'], forecast)rmse = np.sqrt(mse)print(f'Mean Squared Error (MSE): {mse}')print(f'Root Mean Squared Error (RMSE): {rmse}')

时间序列分析和预测是一个复杂但非常有用的领域。通过本文，我们了解了如何使用 Python 对时间序列数据进行预处理、分解、建模和评估。ARIMA 模型是一个强大的工具，可以用于许多实际问题。当然，还有其他更高级的模型，如 LSTM 等深度学习方法，它们在某些场景下可能表现更好。

在未来的工作中，我们可以尝试不同的模型组合、参数调优以及更复杂的特征工程，以进一步提高预测的准确性。

免责声明：本文来自网站作者，不代表CIUIC的观点和立场，本站所发布的一切资源仅限用于学习和研究目的；不得将上述内容用于商业或者非法用途，否则，一切后果请用户自负。本站信息来自网络，版权争议与本站无关。您必须在下载后的24个小时之内，从您的电脑中彻底删除上述内容。如果您喜欢该程序，请支持正版软件，购买注册，得到更好的正版服务。客服邮箱：ciuic@ciuic.com