第11集:时间序列预测——循环神经网络(RNN)与 LSTM

在机器学习中,时间序列预测 是一种重要的任务,广泛应用于股票价格预测、天气预报、语音识别等领域。传统的机器学习方法难以捕捉时间序列中的长期依赖关系,而 循环神经网络(Recurrent Neural Networks, RNN) 和其改进版本 长短期记忆网络(LSTM, Long Short-Term Memory) 能够有效解决这一问题。今天我们将深入探讨 RNN 和 LSTM 的原理,并通过实践部分使用 LSTM 对股票价格数据进行预测




  1. 时序性:数据点之间存在时间依赖关系。
  2. 趋势性:数据可能表现出长期上升或下降的趋势。
  3. 周期性:数据可能具有重复的周期模式(如季节性变化)。
  4. 噪声:数据中可能存在随机波动。


RNN 的基本结构与局限性

RNN 的核心思想

RNN 是一种专门用于处理序列数据的神经网络,其核心思想是引入循环结构,使得当前时刻的输出不仅依赖于当前输入,还依赖于之前的状态。公式如下:
h t = f ( W h h t − 1 + W x x t + b ) h_t = f(W_h h_{t-1} + W_x x_t + b) ht=f(Whht1+Wxxt+b)

  • h t 是当前时刻的隐藏状态。 h_t 是当前时刻的隐藏状态。 ht是当前时刻的隐藏状态。
  • h t − 1 是上一时刻的隐藏状态。 h_{t-1} 是上一时刻的隐藏状态。 ht1是上一时刻的隐藏状态。
  • x t 是当前时刻的输入。 x_t 是当前时刻的输入。 xt是当前时刻的输入。
  • f 是激活函数(通常为 t a n h 或 R e L U )。 f 是激活函数(通常为 tanh 或 ReLU)。 f是激活函数(通常为tanhReLU)。

图2:RNN 结构示意图
(图片描述:一个简单的 RNN 模型,展示了输入、隐藏状态和输出之间的循环连接。)

RNN 的局限性

尽管 RNN 能够捕捉短期依赖关系,但在处理长期依赖时容易出现梯度消失或梯度爆炸问题,导致模型性能下降。

LSTM 与 GRU 如何解决长期依赖问题

1. LSTM(Long Short-Term Memory)

LSTM 是 RNN 的改进版本,通过引入门控机制(遗忘门、输入门和输出门),能够更好地捕捉长期依赖关系。公式如下:
f t = σ ( W f ⋅ [ h t − 1 , x t ] + b f ) i t = σ ( W i ⋅ [ h t − 1 , x t ] + b i ) C ~ t = tanh ⁡ ( W C ⋅ [ h t − 1 , x t ] + b C ) C t = f t ⋅ C t − 1 + i t ⋅ C ~ t o t = σ ( W o ⋅ [ h t − 1 , x t ] + b o ) h t = o t ⋅ tanh ⁡ ( C t ) f_t = \sigma(W_f \cdot [h_{t-1}, x_t] + b_f) \\ i_t = \sigma(W_i \cdot [h_{t-1}, x_t] + b_i) \\ \tilde{C}_t = \tanh(W_C \cdot [h_{t-1}, x_t] + b_C) \\ C_t = f_t \cdot C_{t-1} + i_t \cdot \tilde{C}_t \\ o_t = \sigma(W_o \cdot [h_{t-1}, x_t] + b_o) \\ h_t = o_t \cdot \tanh(C_t) ft=σ(Wf[ht1,xt]+bf)it=σ(Wi[ht1,xt]+bi)C~t=tanh(WC[ht1,xt]+bC)Ct=ftCt1+itC~tot=σ(Wo[ht1,xt]+bo)ht=ottanh(Ct)

  • f t 是遗忘门,控制哪些信息需要被遗忘。 f_t 是遗忘门,控制哪些信息需要被遗忘。 ft是遗忘门,控制哪些信息需要被遗忘。
  • i t 是输入门,控制哪些新信息需要被添加。 i_t 是输入门,控制哪些新信息需要被添加。 it是输入门,控制哪些新信息需要被添加。
  • o t 是输出门,控制哪些信息需要被输出。 o_t 是输出门,控制哪些信息需要被输出。 ot是输出门,控制哪些信息需要被输出。

图3:LSTM 单元结构
(图片描述:LSTM 单元内部结构图,展示了遗忘门、输入门、输出门和细胞状态的交互过程。)

2. GRU(Gated Recurrent Unit)

GRU 是 LSTM 的简化版本,通过合并遗忘门和输入门为更新门,减少了参数数量,同时保留了捕捉长期依赖的能力。


  1. 金融领域:股票价格预测、汇率预测。
  2. 气象领域:天气预报、气候变化分析。
  3. 工业领域:设备故障预测、生产计划优化。
  4. 医疗领域:疾病发展趋势预测、患者健康监测。

实践部分:使用 LSTM 对股票价格数据进行预测




import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.preprocessing import MinMaxScaler
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense
from tensorflow.keras.optimizers import Adam# 加载数据
url = "https://raw.githubusercontent.com/mwitiderrick/stockprice/master/NSE-TATAGLOBAL.csv"
data = pd.read_csv(url)
data['Date'] = pd.to_datetime(data['Date'])
data = data.sort_values('Date')
prices = data['Close'].values.reshape(-1, 1)# 数据归一化
scaler = MinMaxScaler(feature_range=(0, 1))
scaled_prices = scaler.fit_transform(prices)# 创建训练集和测试集
def create_dataset(dataset, time_step=60):X, y = [], []for i in range(len(dataset) - time_step - 1):X.append(dataset[i:i + time_step, 0])y.append(dataset[i + time_step, 0])return np.array(X), np.array(y)time_step = 60
X, y = create_dataset(scaled_prices, time_step)
X = X.reshape(X.shape[0], X.shape[1], 1)train_size = int(len(X) * 0.8)
X_train, X_test = X[:train_size], X[train_size:]
y_train, y_test = y[:train_size], y[train_size:]# 构建 LSTM 模型
model = Sequential([LSTM(50, return_sequences=True, input_shape=(time_step, 1)),LSTM(50, return_sequences=False),Dense(25),Dense(1)
])# 编译模型
model.compile(optimizer=Adam(learning_rate=0.001), loss='mean_squared_error')# 训练模型
history = model.fit(X_train, y_train, epochs=20, batch_size=64, validation_data=(X_test, y_test))# 预测
predictions = model.predict(X_test)
predictions = scaler.inverse_transform(predictions)
y_test_actual = scaler.inverse_transform(y_test.reshape(-1, 1))# 可视化结果
plt.figure(figsize=(12, 6))
plt.plot(y_test_actual, label='True Prices', color='blue')
plt.plot(predictions, label='Predicted Prices', color='red')
plt.title('Stock Price Prediction using LSTM', fontsize=16)
plt.xlabel('Time', fontsize=12)
plt.ylabel('Price', fontsize=12)
plt.show()# 输出损失曲线
plt.figure(figsize=(8, 5))
plt.plot(history.history['loss'], label='Training Loss')
plt.plot(history.history['val_loss'], label='Validation Loss')
plt.title('Loss Curve', fontsize=16)
plt.xlabel('Epochs', fontsize=12)
plt.ylabel('Loss', fontsize=12)


(图片描述:折线图展示了真实股票价格(蓝色)与 LSTM 模型预测价格(红色)的对比,两条曲线较为接近,表明模型表现良好。)


(图片描述:折线图展示了训练和验证损失随 epoch 的变化,两条曲线均逐渐下降并趋于平稳。)


本文介绍了时间序列数据的特点、RNN 的基本结构及其局限性,并详细讲解了 LSTM 如何解决长期依赖问题。通过实践部分,我们成功使用 LSTM 对股票价格数据进行了预测。希望这篇文章能帮助你更好地理解时间序列预测的基本原理!



