Keras中的LSTM

技术2022-07-10 170

最近做一个关于用电负荷预测的项目，想用循环神经网络试一下，具有时间特性的数据预测当然非LSTM莫属了啦，但是感觉自己对LSTM的输入和输出不是很明白，就学习顺便整理一下吧。

此处属于我个人理解，可能有不正确的地方欢迎大家指正。

Cell

说到LSTM当然先来一张cell的图了：

LSTM结构图图中看起来是三个cell，其实是一个cell在不同时刻上的拼接，也就是说其实是一个cell在不同时刻的状态。我们就以中间那个cell为例进行说明吧。其中，四个黄色的小矩形就是普通神经网络的隐藏层结构，其中第一、二和四的激活函数是 sigmoid，第三个的激活函数是 tanh。 t时刻的输入 X和 t-1时刻的输出 h(t-1)进行拼接，然后输入cell中，其实可以这样理解，我们的输入 X(t)分别feed进了四个小黄矩形中，每个小黄矩形中进行的运算和正常的神经网络的计算一样（矩阵乘法），有关记忆的部分完全由各种门结构来控制（就是0和1），同时在输入时不仅仅有原始的数据集，同时还加入了上一个数据的输出结果，也就是 h(t-1)，那么讲来LSTM和正常的神经网络类似，只是在输入和输出上加入了一点东西。cell中可以大体分为两条横线，上面的横线用来控制长时记忆，下面的横线用来控制短时记忆。关于LSTM我通过参考画了一张图，如下： image.png

输入和输出

输入下面我们就来说说输入问题，在Keras中，LSTM的输入shape=(samples, time_steps, input_dim)，其中samples表示样本数量，time_steps表示时间步长，input_dim表示每一个时间步上的维度。我举一个例子吧，现在有一个数据集有四个属性(A，B, C, D)，我们希望的预测标签式D，假设这里的样本数量为N。如果时间步长为1，那么此时的输入shape=(N, 1, 4)，具体的数据是这样的[A(t-1), B(t-1), C(t-1), D(t-1)]（此处表示一个数据样本），样本标签为[D(t)]；如果时间步长为2，那么此时的输入shape=(N, 2, 4)，具体的数据是[[A(t-2), B(t-2), C(t-2), D(t-2)], [A(t-1), B(t-1), C(t-1), D(t-1)]]（此处仍表示一个样本数据）。

输出关于Keras中LSTM的输出问题，在搭建网络时有两个参数，一个是output_dim表示输出的维度，这个参数其实就是确定了四个小黄矩形中权重矩阵的大小。另一个可选参数return_sequence，这个参数表示LSTM返回的时一个时间序列还是最后一个，也就是说当return_sequence=True时返回的是(samples, time_steps, output_dim)的3D张量，如果return_sequence=Flase时返回的是(samples, output_dim)的2D张量。比如输入shape=(N, 2, 8)，同时output_dim=32，当return_sequence=True时返回(N, 2, 32)；当return_sequence=False时返回(N, 32)，这里表示的时输出序列的最后一个输出。

多层LSTM

使用LSTM搭建多层LSTM网络还是比较方便的，我们只需要使用Sequential()进行堆叠即可。在进行多层LSTM网络时，需要注意一下几点：

需要对第一层的LSTM指定input_shape参数。

将前N-1层LSTM的return_sequence设置为True，保证每一曾都会想下一层传播所有时间步长上的预测，同时保证最后一层的return_sequence为False（如果只需要最后一个输出的话）。

其实，在第二层时，不用指定input_shape，因为根据上一层的output_dim和当前层的output_dim可以得出当前层中权重矩阵的大小。

def build_model(lstm_layers, dense_layers): model = Sequential() model.add(LSTM(output_dim=32, input_shape=(2, 3), activation='relu', return_sequences=True)) for i in range(lstm_layers - 1): model.add(LSTM(output_dim=32 * (i+1), activation='relu', return_sequences=True)) for i in range(dense_layers - 1): model.add(Dense(output_dim=256, activation='relu')) model.add(Dropout(0.5)) model.compile(loss='mae', optimizer='adam', metrics=['accuracy']) model.summary() return model

参数lstm_layers=5, dense_layers=3，结果如下：

_________________________________________________________________ Layer (type) Output Shape Param # ================================================================= lstm_1 (LSTM) (None, 2, 32) 4608 _________________________________________________________________ lstm_2 (LSTM) (None, 2, 32) 8320 _________________________________________________________________ lstm_3 (LSTM) (None, 2, 64) 24832 _________________________________________________________________ lstm_4 (LSTM) (None, 2, 96) 61824 _________________________________________________________________ lstm_5 (LSTM) (None, 2, 128) 115200 _________________________________________________________________ dense_1 (Dense) (None, 2, 256) 33024 _________________________________________________________________ dropout_1 (Dropout) (None, 2, 256) 0 _________________________________________________________________ dense_2 (Dense) (None, 2, 256) 65792 _________________________________________________________________ dropout_2 (Dropout) (None, 2, 256) 0 ================================================================= Total params: 313,600 Trainable params: 313,600 Non-trainable params: 0 _________________________________________________________________

参数量计算

前面提到了LSTM的计算其实和普通神经网络类似，那我们就来推一下参数量，看是否符合我们的预期。

1. 输入的shape=(N, 2, 3) 2. 网络结构： _________________________________________________________________ Layer (type) Output Shape Param # ================================================================= lstm_1 (LSTM) (None, 2, 4) 128 ================================================================= Total params: 128 Trainable params: 128 Non-trainable params: 0 _________________________________________________________________ 3. 输出的shape=(N, 2, 4) 首先cell的输出为[2, 4]，也就是输出的维度为4（其中2表示步长），输入的数据为[2, 3]，所以真正输入cell中的数据维度应该是[2, 7]，也就是[2, 3+4]（因为要拼接t-1时刻的输出和t时刻的输入）；接下来每个cell中有四个小黄矩形，也就是四次矩阵乘法，又因为输出的维度是4，所以矩阵乘法就是[2, 7]*[7, 4]=[2, 4]，所以一个小黄矩形所需的参数为7x4=28，四个也就是28x4=112；最后加上每一个小黄矩形后的激活函数的偏置4x4=16。

最终，总共的参数值为112+16=128。和程序打印出来的结果一致。通过上面的推导我们发现，其实实际的参数量和步长是没有关系的，这一点我也验证了一下，通过改变输入shape=(samples, time_steps, input_dim)中的time_stpes的值，参数量不会发生变化。如下（输入shape=[N, 2, 3]，time_steps=10):

_________________________________________________________________ Layer (type) Output Shape Param # ================================================================= lstm_1 (LSTM) (None, 10, 4) 128 ================================================================= Total params: 128 Trainable params: 128 Non-trainable params: 0 _________________________________________________________________

参考

keras：4)LSTM函数详解LSTM梳理，理解，和keras实现（一）LSTM神经网络输入输出究竟是怎样的？

Processed: 0.012, SQL: 9