下面是群里以为大佬说的: 1.数据都是有噪声的,bs太小,受到噪声影响大。 2.如果有BN,bs太小,BN统计量受到影响 另一位大佬说: 1.bs太小,学到的都是少量几个样本的特征。 2.bs过大,每个只能学到一点点,很难学到其中的差别。