分词

分词

  • 分词OR不分词选择

  • 正向最大匹配算法 查词典

  • 基于隐马尔科夫模型的分词

    • 利用对字的状态标注进行分词
  • CRF条件随机场

句子相似度计算

  • DSSM 链接
    • 使用点击数据来训练语义层次的匹配
    • one-hot输入
    • 通过搜索引擎里 Query 和 Title 的海量的点击曝光日志,用 DNN 把 Query 和 Title 表达为低纬语义向量,并通过 cosine 距离来计算两个语义向量的距离,最终训练出语义相似度模型。
  • bi-lstm
  • 机器学习方法
    • 提取人工特征
      • 重复词统计、比例
      • 字数差
  • 字 词 向量混合
  • CNN+RNN模型RCNN
  • Enhanced LSTM for Natural Language Inference(ESIM)

Kmeans

  • K-Means算法的思想很简单,对于给定的样本集,按照样本之间的距离大小,将样本集划分为K个簇。让簇内的点尽量紧密的连在一起,而让簇间的距离尽量的大。

  • 训练过程

    1. 随机选K个质心,将周围的距离最近的点划为一簇
    2. 计算新簇的质心,划分新的簇
    3. 迭代以上两步
  • K-Means是无监督学习的聚类算法,没有样本输出;而KNN是监督学习的分类算法,有对应的类别输出。KNN基本不需要训练,对测试集里面的点,只需要找到在训练集中最近的k个点,用这最近的k个点的类别来决定测试点的类别。而K-Means则有明显的训练过程,找到k个类别的最佳质心,从而决定样本的簇类别。

AE

  • 多层神经网络 输入输出一样
L1 L2 的区别
  • L1用于模型对模型异常点有较好 的抗干扰能力
  • L2 对异常值比较敏感
posted @ 2019-08-14 10:00  FromZeroToOne  阅读(117)  评论(0编辑  收藏  举报