摘要:
第14章 统计剖析 CKY算法和Earley算法可以有效地表示句法歧义,但却没有提供排歧的手段。概率语法提供的方法是,可以计算歧义的每一种解释的概率,然后从中选择概率最大的解释。 概率上下文无关语法(PCFG)最常用。 14.1 概率上下文无关语法 上下文无关语法由四个参数定义: N(非终极符集合) 阅读全文
摘要:
使用word2vec训练词向量 使用word2vec无监督学习训练词向量,输入的是训练数据和测试数据,输出的是每个词的词向量,总共三百个词左右。 求和:然后再将每行数据中的每个词的词向量加和,得到每行的词向量表示。 其他还可以通过求平均,求众数或者最大值等等方法得到每行的词向量表示。 代码如下: 训 阅读全文