1 参数
1.1 batch
两种解释:
- 对于一个有 2000 个训练样本的数据集。将 2000 个样本分成大小为 500 的 batch,那么完成一个 epoch 需要 4 个 iteration。
- 如果把准备训练数据比喻成一块准备打火锅的牛肉,那么epoch就是整块牛肉,batch就是切片后的牛肉片,iteration就是涮一块牛肉片。
1 | batch_size = 512 # batch的大小 |
1.2
2 网络层
2.1 嵌入层
嵌入层将词元的索引映射到其特征向量。该层的权重是一个矩阵,其行数等于字典大小(input_dim
),列数等于每个标记的向量维数(output_dim
)。在词嵌入模型训练之后,这个权重就是我们所需要的。
1 | embed = nn.Embedding(num_embeddings=20, embedding_dim=4) |