摘要: 如何比较文本的相似度? (引用自:https://blog.csdn.net/qq_28031525/article/details/79596376) 度量文本相似度包括如下三种方法: 一是基于关键词匹配的传统方法,如N-gram相似度; tf-idf相似度 二是将文本映射到向量空间,再利用余弦相 阅读全文
posted @ 2020-03-15 23:59 TFknight 阅读(642) 评论(0) 推荐(0) 编辑
摘要: 1 半监督方法的定义 2 伪标签的定义 值得注意的是: 测试集的采样比例不能过高,一般都是(0.3 -- 0.5) 一些其他总结的点: 一般分类分类问题属于Low-Density Separation 时,加入伪标签才有用,建议观看李弘毅的视频,讲半监督的部分,举个简单的例子,二分类问题预训练模型对 阅读全文
posted @ 2020-03-15 17:56 TFknight 阅读(817) 评论(0) 推荐(0) 编辑