关于掩码 掩码是为了缓解自动编码语言模型中的数据泄漏问题而提出的解决方案。 随机掩码 bert的原始掩码策略。在一个句子中随机遮掩15%的标记单词,对这这样的15%单词进行下列操作: 80%用[MASK]遮掩 10%随即替换成词汇表中的其他单词 不做处理 15%是实验的最优比例 2 . 全词掩码 3… N-gram掩码 2023-12-09 #BERT
分词 我们要将字符映射成计算机能够识别的数字必须要经历分词这一步。本文主要讲解英文分析的主要步骤。 1. char-subwords-word 很自然的我们对每一个独立含义的英文单词独立编码,即apple. dog, chicken 他们分别拥有独立的编码,也是word级别的编码,word级别的编码可以让每个单词都有固定的符号,但是面对一个问题就是英语词库中有太多的英语单词,需要编码的量远超过计算机的运 2023-12-09
Bert-下游微调 微调: 1. 输入: 句子的输入要选择词嵌入Bert选择了WordPiece进行子词词元化。要满足Bert的要求 1.1 标记嵌入: [CLS]句子[SEP] 1.2 分段嵌入 [CLS]句子1[SEP]句子2[SEP] 1.3 位置嵌入 给出词序的具体位置信息 最后将上面的三个特征进行相加,即为输入特征,输入到Bert中。 2. 完成的下游任务: 句子经过Bert的token器后执行下列动作: 2023-12-09 #BERT
Bert-基本构成 Bert将Transformer左半边的Encoder拿出来进行单独训练,来生成预训练模型。GPT是将Transformers右半边Decoder拿出来进行预训练。整体的框架如下: 1. 输入: 词嵌入Bert选择了WordPiece进行子词词元化。 [CLS] : 在训练前,每个句子开始时都有CLS预示输入的开始,同时也不包含任何含义。在训练后,它汇总了句子所有的特征,可以用来继续下游的分类任 2023-12-09 #BERT
预训练模型整体流程 graph TB A(载入预训练模型) --> B(重载模型) B --加入--> C(学习率) B --加入--> D(优化器) B --加入--> E(损失函数) C --> F(初始化热身) D --> F(初始化热身) E --> F(初始化热身) F --> G(训练) subgraph 每个epoch G --> H(计算损失) H --更新--> H end H --一 2023-12-01 #工程实践 #模型训练