摘要: 1 半监督方法的定义 2 伪标签的定义 值得注意的是: 测试集的采样比例不能过高,一般都是(0.3 -- 0.5) 一些其他总结的点: 一般分类分类问题属于Low-Density Separation 时,加入伪标签才有用,建议观看李弘毅的视频,讲半监督的部分,举个简单的例子,二分类问题预训练模型对 阅读全文
posted @ 2020-03-15 17:56 TFknight 阅读(809) 评论(0) 推荐(0) 编辑
摘要: 1 列出几种文本特征提取算法 答:文档频率、信息增益、互信息、X^2统计、TF-IDF (引用自:https://www.cnblogs.com/jiashun/p/CrossEntropyLoss.html) 信息: 由于概率I 是一个)0至1的值,所以当事件发生的概率越大时,信息量越小。 相对熵 阅读全文
posted @ 2020-03-14 17:59 TFknight 阅读(1151) 评论(0) 推荐(0) 编辑
摘要: 文本匹配相关方向探讨 转载:https://www.jiqizhixin.com/articles/2019-10-18-14 因为本人毕设做到了和文本匹配相关方向的研究,所以转发此博客探讨文本匹配的方向。 Motivation 前不久小夕在知乎上写了一个回答《NLP有哪些独立研究方向》[1],于是 阅读全文
posted @ 2020-03-09 17:25 TFknight 阅读(1007) 评论(0) 推荐(1) 编辑