分词
分词
-
分词OR不分词选择
-
正向最大匹配算法 查词典
-
基于隐马尔科夫模型的分词
- 利用对字的状态标注进行分词
-
CRF条件随机场
句子相似度计算
- DSSM 链接
- 使用点击数据来训练语义层次的匹配
- one-hot输入
- 通过搜索引擎里 Query 和 Title 的海量的点击曝光日志,用 DNN 把 Query 和 Title 表达为低纬语义向量,并通过 cosine 距离来计算两个语义向量的距离,最终训练出语义相似度模型。
- bi-lstm
- 机器学习方法
- 提取人工特征
- 重复词统计、比例
- 字数差
- 提取人工特征
- 字 词 向量混合
- CNN+RNN模型RCNN
- Enhanced LSTM for Natural Language Inference(ESIM)
Kmeans
-
K-Means算法的思想很简单,对于给定的样本集,按照样本之间的距离大小,将样本集划分为K个簇。让簇内的点尽量紧密的连在一起,而让簇间的距离尽量的大。
-
训练过程
- 随机选K个质心,将周围的距离最近的点划为一簇
- 计算新簇的质心,划分新的簇
- 迭代以上两步
-
K-Means是无监督学习的聚类算法,没有样本输出;而KNN是监督学习的分类算法,有对应的类别输出。KNN基本不需要训练,对测试集里面的点,只需要找到在训练集中最近的k个点,用这最近的k个点的类别来决定测试点的类别。而K-Means则有明显的训练过程,找到k个类别的最佳质心,从而决定样本的簇类别。
AE
- 多层神经网络 输入输出一样
L1 L2 的区别
- L1用于模型对模型异常点有较好 的抗干扰能力
- L2 对异常值比较敏感