分词

分词

分词OR不分词选择
正向最大匹配算法查词典
基于隐马尔科夫模型的分词
- 利用对字的状态标注进行分词
CRF条件随机场

句子相似度计算

DSSM 链接
- 使用点击数据来训练语义层次的匹配
- one-hot输入
- 通过搜索引擎里 Query 和 Title 的海量的点击曝光日志，用 DNN 把 Query 和 Title 表达为低纬语义向量，并通过 cosine 距离来计算两个语义向量的距离，最终训练出语义相似度模型。
bi-lstm
机器学习方法
- 提取人工特征
  - 重复词统计、比例
  - 字数差
字词向量混合
CNN+RNN模型RCNN
Enhanced LSTM for Natural Language Inference(ESIM)

Kmeans

K-Means算法的思想很简单，对于给定的样本集，按照样本之间的距离大小，将样本集划分为K个簇。让簇内的点尽量紧密的连在一起，而让簇间的距离尽量的大。
训练过程
1. 随机选K个质心，将周围的距离最近的点划为一簇
2. 计算新簇的质心，划分新的簇
3. 迭代以上两步
K-Means是无监督学习的聚类算法，没有样本输出；而KNN是监督学习的分类算法，有对应的类别输出。KNN基本不需要训练，对测试集里面的点，只需要找到在训练集中最近的k个点，用这最近的k个点的类别来决定测试点的类别。而K-Means则有明显的训练过程，找到k个类别的最佳质心，从而决定样本的簇类别。

AE

多层神经网络输入输出一样

L1 L2 的区别

L1用于模型对模型异常点有较好的抗干扰能力
L2 对异常值比较敏感

posted @ 2019-08-14 10:00 FromZeroToOne 阅读(117) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部