首先关于这个问题是我的一个同门提出来的,一直也困扰了我好几天,这几天查阅了相关的资料,也没有很好的解释。根据我自己的理解,我列出了能信服我的几点原因,如下:

  • 预训练的成功使用,这让模型在训练我们自己的数据之前已经具有了对语义理解的能力。
  • Bert对于语义识别精度十分高,所以只需要很少的预料信息就可以达到较为良好的训练效果。
  • Bert通过自注意力机制,实现了自监督学习,这让模型有了很好的聚类能力。所以在实现下游任务的时候也有较好的效果。

希望能有大佬能给我系统的解答一下,谢谢!

Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐