摘要:
Stacking模型的基本思想 假设有1000条训练集,100条测试集,那么把训练集分为5份(一般分为5份),每一份有200条。用model训练其中四份,即800条,后,预测剩下200条,同时也预测测试集100条,得到预测结果。经过5次训练,训练集正好得到200×5条结果,也就是原来训练集的数量,合 阅读全文
摘要:
在看了好多大牛们的博客之后,关于BERT有了一个大概的理解,将一些知识点整理到这里。 BERT概述 BERT的全称是 Bidirectional Encoder Representation from Transformers ,利用了Transformer的 Encoder 部分,重点是 预处理/ 阅读全文