对于特定数据集,可以先尝试逻辑回归和二级神经网络,然后再用深层神经网络
L 深度神经网络层数。(0~n)
n[i] 第i层节点个数
a[i] 第(i 0~n)
a[0] 是x a[n]是最终输出节点
dz [l] =w[l+1]T dz[l+1] *g[l]' (z[l])
这个怎么推导出来的?
A[l] = g[l](z[l]) 这括号意思是,z[l]是一个自变量,而不是别的什么
用一个for循环来实现多层正向传播。仔细检查自己矩阵的尺寸可以减少很多bug
很多时候并不需要太深的隐藏层,应该逐渐加深层数
深层神经网络,正向传播和反向传播的节点。
学习率 a learning_rate 是一个比较重要的参数,它的值,应该使得损失函数J 下降速度快,收敛,且最小。
这个 learning_rate是实验出来的,而且会经常改变