摘要:链接:https://www.zhihu.com/question/39840928/answer/146205830来源:知乎 一、混淆矩阵 混淆矩阵如图1分别用”0“和”1“代表负样本和正样本。FP代表实际类标签为”0“,但预测类标签为”1“的样本数量。其余,类似推理。 二、假正率和真正率 假正
阅读全文
摘要:http://zh.gluon.ai/chapter_crashcourse/introduction.html 强化学习(Reinforcement Learning) 如果你真的有兴趣用机器学习开发一个能与周围环境交互并产生影响的智能体,你大概需要专注于强化学习(以下简称RL)。包括机器人程序、
阅读全文
摘要:链接:https://github.com/karpathy/char-rnn http://karpathy.github.io/2015/05/21/rnn-effectiveness/ https://github.com/Teaonly/beginlearning/tree/master/j
阅读全文
摘要:参考: 用 Doc2Vec 得到文档/段落/句子的向量表达 https://radimrehurek.com/gensim/models/doc2vec.html Gensim Doc2vec Tutorial on the IMDB Sentiment Dataset 基于gensim的Doc2V
阅读全文
摘要:参考:http://www.cnblogs.com/ybjourney/p/4793370.html http://www.cnblogs.com/ybjourney/p/4824903.html https://janav.wordpress.com/2013/10/27/tf-idf-and-c
阅读全文
摘要:参考:http://blog.sciencenet.cn/blog-995625-803323.html 原始集:概率分布为A训练集:概率分布为B测试集:概率分布为C特征工程:处理A,得到更接近C的B机器学习:拟合B,用以预测C 一.四类特征 特征工程是个过程,包括三个子模块:特征构建->特征提取-
阅读全文
摘要:参考:http://blog.csdn.net/zouxy09/article/details/49105265 因为标注成本比较高,当你的训练数据集只有一部分数据是有标注的情况下,使用监督学习你只能扔掉那些没有标注的X。而实际上,有标注的样本和无标注的样本之间是有关系的,这种关系信息也可以用来帮助
阅读全文
摘要:链接: 在训练卷积神经网络(CNN)的某一个卷积层时,实际上是在训练一系列的滤波器(filter)。简单来说,训练CNN在相当意义上是在训练每一个卷积层的滤波器。让这些滤波器组对特定的模式有高的激活,以达到CNN网络的分类/检测等目的。 卷积层: 需要记住的是(过滤器)权值的纵深维度(depth d
阅读全文
摘要:参考: Convolutional Neural Networks for Sentence Classification Convolutional Neural Networks for Sentence Classification Convolutional Neural Networks
阅读全文
摘要:一、概述 贝叶斯网是概率论和图论相结合的产物,可以从概率论的角度讨论变量间的依赖与独立,也可以从图论的角度讨论节点间的连通与分隔,两者有深刻的联系。 1.通过图论准则可以判别变量间条件独立关系。 2.X 与 Y 不直接相连,通过其他变量才能在两者间传递信息;如果 X 和 Y 之间的所有信息通道都被阻
阅读全文
摘要:参考: 最大似然估计,就是利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。例如:一个麻袋里有白球与黑球,但是我不知道它们之间的比例,那我就有放回的抽取10次,结果我发现我抽到了8次黑球2次白球,我要求最有可能的黑白球之间的比例时,就采取最大似然估计法。 MLE可以看作一种特殊情况下
阅读全文
摘要:参考链接1: 参考链接2: 参考ppt3: Factor Graph 是概率图的一种,概率图有很多种,最常见的就是Bayesian Network (贝叶斯网络)和Markov Random Fields(马尔可夫随机场)。在概率图中,求某个变量的边缘分布是常见的问题。这问题有很多求解方法,其中之一
阅读全文
摘要:原文链接 1. What is a Bayes net? 贝叶斯网是一个模型。 它反映了正在建模的世界的某些部分的状态,它描述了这些国家如何与概率相关联。 该模型可能是您的房子,或您的汽车,您的身体,您的社区,生态系统,股票市场等。绝对任何东西都可以由贝叶斯网络建模。 模型的所有可能状态都表示可能存
阅读全文
摘要:#coding=utf8 import numpy as np import pandas as pd import re from gensim import corpora, models, similarities import gensim from nltk.corpus import stopwords df = pd.read_csv("./input/HillaryEmails...
阅读全文
摘要:#coding=utf8 import pandas as pd from sklearn.model_selection import train_test_split from sklearn.feature_extraction import DictVectorizer from xgboost import XGBClassifier titanic = pd.read_csv('....
阅读全文
摘要:Bag-of-words Model Previous state-of-the-art document representations were based on the bag-of-words model, which represent input documents as a fixed
阅读全文
摘要:链接:http://blog.csdn.net/Cincinnati_De/article/details/77859805
阅读全文
摘要:结果: 分析:虽然损失了%3的预测准确性,但是相比于原来的64维特征,使用PCA压缩并降低了68.75%的维度,能改节省大量的训练时间,在保持数据多样性的基础上,规避掉了大量特征冗余和噪声。
阅读全文
摘要:单一决策树结果: 随机森林,GDBT结果: 预测性能: GDBT最佳,随机森林次之 一般,工业界为了追求更加强劲的预测性能,使用随机森林作为基线系统(Baseline System)。
阅读全文