Roberta-wwm-ext-large模型中的wwm理解
Roberta:Robust optimize bert approach(名字来自于一篇论文题目的缩写)wwm:whole word masking的缩写;经典的bert作mask是随机的,且是基于WordPiece token之上的,没有约束条件。而wwm是将一个单词分成多个word piece后,mask其中一个,那么整个word必须全部被mask,换句话说,mask的最小单位是整个word
·
Roberta:Robust optimize bert approach(名字来自于一篇论文题目的缩写)
wwm:whole word masking的缩写;经典的bert作mask是随机的,且是基于WordPiece token之上的,没有约束条件。
而wwm是将一个单词分成多个word piece后,mask其中一个,那么整个word必须全部被mask,换句话说,mask的最小单位是整个word,而原来是word piece(part of 整个word)
案例:
[OriginalSentence]
使用语言模型来预测下一个词的probability。
[OriginalSentence with CWS]
使用 语言 模型 来 预测 下 一个 词 的 probability 。
[OriginalBERTInput]
使 用 语 言 [MASK] 型 来 [MASK] 测 下 一 个 词 的 pro [MASK] ##lity 。
[WholdWordMaskingInput]
使 用 语 言 [MASK][MASK] 来 [MASK] [MASK] 下 一 个 词 的 [MASK] [MASK] [MASK]。
“模型” 为一个word(本质上理解为token),原来随机mask的时候, 是可以只mask一部分。比如“模"被替换成mask;而”型"保持不变。
而wwm就单个word必须全部被Mask,否则就不要mask。
ext:extended data
更多推荐
所有评论(0)