09 2021 档案
摘要:
本文首发于微信公众号「对白的算法屋」 作者:对白 对比学习方法(CV) 对比学习要做什么? 有监督训练的典型问题,就是标注数据是有限的。 目前NLP领域的经验,自监督预训练使用的数据量越大,模型越复杂,那么模型能够吸收的知识越多,对下游任务效果来说越好。这可能是自从Bert出现以来,一再被反复证明。
阅读全文

摘要:
本文首发于微信公众号「对白的算法屋」 作者:对白 一、Word2vec CBOW(Continuous Bag-of-Words):每个词的含义都由相邻词决定。 Skip-gram:依据分布的相似性,一个词的含义可以通过上下文获得。 注:Skip-gram 是预测一个词的上下文,而 CBOW 是用上
阅读全文

摘要:
本文首发于微信公众号「对白的算法屋」 大家好,我是对白。 目前,越来越多的互联网公司内部都有自己的一套框架去训练模型,而模型训练时需要的数据则都保存在分布式文件系统(HDFS)上。Hive作为构建在HDFS上的一个数据仓库,它本质上可以看作是一个翻译器,可以将HiveSQL语句翻译成MapReduc
阅读全文
