▼参考文献
Devlin, Jacob, et al. "Bert: Pre-training of deep bidirectional transformers for language understanding." arXiv preprint arXiv:1810.04805 (2018).
https://arxiv.org/abs/1810.04805
原論文!
2年前、Transformer論文の次にコレを読んで、「Transformer と何が違うの、、、?」と混乱した思い出があります。
時代背景やこの論文の主張をわかった上で読んだらとても読みやすいと思います!(^o^)