11 2019 档案
摘要:第14章 统计剖析 CKY算法和Earley算法可以有效地表示句法歧义,但却没有提供排歧的手段。概率语法提供的方法是,可以计算歧义的每一种解释的概率,然后从中选择概率最大的解释。 概率上下文无关语法(PCFG)最常用。 14.1 概率上下文无关语法 上下文无关语法由四个参数定义: N(非终极符集合)
阅读全文
摘要:使用word2vec训练词向量 使用word2vec无监督学习训练词向量,输入的是训练数据和测试数据,输出的是每个词的词向量,总共三百个词左右。 求和:然后再将每行数据中的每个词的词向量加和,得到每行的词向量表示。 其他还可以通过求平均,求众数或者最大值等等方法得到每行的词向量表示。 代码如下: 训
阅读全文
摘要:分类问题 1. 手写数字识别问题 ((1797, 64), (1797,)) 划分70%训练集,30%测试集, ((1257, 64), (540, 64), (1257,), (540,)) 使用默认参数, XGBClassifier(base_score=0.5, booster='gbtree
阅读全文
摘要:XGBoost学习: 集成学习将多个弱学习器结合起来,优势互补,可以达到强学习器的效果。要想得到最好的集成效果,这些弱学习器应当“好而不同”。 根据个体学习器的生成方法,集成学习方法可以分为两大类,序列化方法,并行化方法。序列化方法的代表就是Boosting方法,其中XGBoost和lightGBN
阅读全文
摘要:第六章 隐式马尔可夫模型与最大熵模型 马尔可夫模型发展出了隐式马尔可夫模型HMM和最大熵模型MaxEnt,与马尔可夫有关的最大熵模型称为最大熵马尔可夫模型MEMM。 HMM和MEMM都是序列分类器。给定一个单元(单词、字母、语素、句子等)的序列,可以计算在可能的标号上的概率分布,并选择最好的标号序列
阅读全文
摘要:第五章 词类标注 词类(Part-of-Speech, POS),能够提供关于单词及其近邻成分的大量有用信息。 词类标注的方法:手写规则(基于规则标注),统计方法(隐式马尔科夫模型标注HMM,最大熵标注,基于转换的标注,基于记忆的标注)。 5.1 英语词的分类 词类是根据单词的句法功能和形态功能来定
阅读全文
摘要:主要工作 本周主要是跑了下n gram模型,并调了下参数。大概看了几篇论文,有几个处理方法不错,准备下周代码实现一下。 xgboost参数设置为: param = {'max_depth': 6, 'eta': 0.1, 'eval_metric': 'mlogloss', 'silent': 1,
阅读全文
摘要:1.13 特征选择 sklearn.feature_selection模块中的类可以用于样本集上的特征选择/降维,以提高估计器的精度值,或提高其应用在高维数据集上的性能。 1.13.1 删除低方差的特征 VarianceThreshold是一种简单的特征选择baseline方法。它删除了方差不满足某
阅读全文