2020年7月 - leenldk's blog

leenldk's blog

ようこそ，記憶と黒歴史の隅へ

2020年7月

每周乱搞日记(4)

作者: leenldk
时间: 2020-07-01
分类: 未分类

6.30

开始看适之学长给的论文
introduction 中提到bert模型的pre_train过程代价极高
1024 V100 1day
bert large 很难在12GB ~ 16GB 的显卡上reproduce 结果

bert有multiple layers 的双向 transformers
每个 transformer 有一个 multi-head self-attention层，position-wise feed-forward层