摘要:分类算法 二分类 线性支持向量机,Logistic回归,决策树,随机森林,梯度上升树,朴素贝叶斯 多类分类 Logistic回归,决策树,随机森林,朴素贝叶斯 回归 线性最小二乘法,Lasso,岭回归,决策树,随机森林,梯度上升树,保序回归 Random Forest 随机森林(决策树+bagging(bootstrap Aggregating)) 随机森林:测量每个特征对预测的相对重要性,进...
阅读全文
摘要:强化学习 强化学习能解决的问题:序贯决策问题 序贯决策问题:连续不断的作出决策,才能实现最终目标的问题。 强化学习如何解决问题? 类比,强化学习和监督学习的异同点: 共同点:两者都需要大量的数据进行训练 不同点:两者所需的数据类型不同。监督学习需要的是多样化的标签数据,强化学习需要的是带有回报的交互
阅读全文
摘要:粗糙集理论 1 粗糙集的基本概念 在粗糙集理论中,我们把知识看做是一种能被用于分类对象的能力。其中对象可以代表现实世界中的任意事物,包括物品、属性、概念等。即:知识需要同现实世界中特定环境的确定对象相关联,这一集合称为论域。 知识与概念 令U为包含若干对象的非空有限集,也即论域,在论域中,称任意集合为一个概念或范畴。特别地,我们把空集也视为一个概念,称之为空概念。而由任意个这样的X...
阅读全文
摘要:中国大陆数学界某些机构关于函数凹凸性定义和国外的定义是相反的。Convex Function在某些中国大陆的数学书中指凹函数。Concave Function指凸函数。但在中国大陆涉及经济学的很多书中,凹凸性的提法和其他国家的提法是一致的,也就是和数学教材是反的。举个例子,同济大学高等数学教材对函数
阅读全文
摘要:import numpy as np import pandas as pd from keras.models import Sequential from keras.layers import Dense, Dropout from keras.wrappers.scikit_learn import KerasClassifier from keras.utils import np_u...
阅读全文
摘要:#-*- coding: utf-8 -*- #使用神经网络算法预测销量高低 import pandas as pd #参数初始化 inputfile = 'data/sales_data.xls' data = pd.read_excel(inputfile, index_col = u'序号') #导入数据 #数据是类别标签,要将它转换为数据 #用1来表示“好”、“是”、“高”这三个属...
阅读全文
摘要:#!/usr/bin/env python3 # -*- coding: utf-8 -*- """ Created on Sat Nov 18 21:22:29 2017 @author: luogan """ from matplotlib.dates import DateFormatter, WeekdayLocator, DayLocator, MONDAY,YEARLY from...
阅读全文
摘要:数据集格式: 时间 最高价2015/12/11 3455.552015/12/10 3503.652015/12/9 3495.72015/12/8 3518.652015/12/7 3543.952015/12/4 3568.972015/12/3 3591.732015/12/2 3538.85
阅读全文
摘要:如何在scikit-learn模型中使用Keras 通过用 KerasClassifier 或 KerasRegressor 类包装Keras模型,可将其用于scikit-learn。 要使用这些包装,必须定义一个函数,以便按顺序模式创建并返回Keras,然后当构建 KerasClassifier
阅读全文
摘要:点积有两种定义方式:代数方式和几何方式。通过在欧氏空间中引入笛卡尔坐标系,向量之间的点积既可以由向量坐标的代数运算得出,也可以通过引入两个向量的长度和角度等几何概念来求解。[1] 广义定义 广义定义 在一个向量空间V中,定义在 上的正定对称双线性形式函数即是V的数量积,而添加有一个数量积的向量空间即
阅读全文
摘要:词集模型:单词构成的集合,每个单词只出现一次。 词袋模型:把每一个单词都进行统计,同时计算每个单词出现的次数。 在train_x中,总共有6篇文档,每一行代表一个样本即一篇文档。我们的目标是将train_x转化为可训练矩阵,即生成每个样本的词向量。可以对train_x分别建立词集模型,词袋模型来解决
阅读全文
摘要:关于多分类 我们常见的逻辑回归、SVM等常用于解决二分类问题,对于多分类问题,比如识别手写数字,它就需要10个分类,同样也可以用逻辑回归或SVM,只是需要多个二分类来组成多分类,但这里讨论另外一种方式来解决多分类——softmax。 关于softmax softmax的函数为 P(i)=exp(θT
阅读全文
摘要:Dropout: Dropout is a radically different technique for regularization. Unlike L1 and L2 regularization, dropout doesn't rely on modifying the cost fu
阅读全文
摘要:在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient Descent)是最常采用的方法之一,另一种常用的方法是最小二乘法。这里就对梯度下降法做一个完整的总结。 1. 梯度 在微积分里面,对多元函数的参数求∂偏导数,把求得的各个参数的偏导数以向量的形式写出来,就是梯度。比如函数
阅读全文
摘要:正则化(Regularization) 机器学习中几乎都可以看到损失函数后面会添加一个额外项,常用的额外项一般有两种,一般英文称作ℓ1ℓ1-norm和ℓ2ℓ2-norm,中文称作L1正则化和L2正则化,或者L1范数和L2范数。 L1正则化和L2正则化可以看做是损失函数的惩罚项。所谓『惩罚』是指对损失
阅读全文
摘要:协同过滤与奇异值分解 1. Introduction A recommender system refers to a system that is capable of predicting the future preference of a set of items for a user, and recommend the top items. One key reason why...
阅读全文
摘要:在伪代码中,每一条指令占一行(else if 例外),指令后不跟任何符号 书写上的缩进表示程序中的分支结构;同一模块中的语句具有相同的缩进量,通常每个算法开始时都要描述它的输入和输出,而且算法中的每一行都给编上行号,在解释算法的过程中会经常使用算法步骤中的行号来指代算法的步骤。 1.变量的声明 算法
阅读全文
摘要:1 pagerank算法的基本原理 Pagerank算法是Google的网页排名算法,由拉里佩奇发明。其基本思想是民主表决。在互联网上,如果一个网页被很多其他网页所链接,说明它受到普遍的承认和信赖,那么它的排名就高。同时,排名高的网站链接可靠,所以这些链接的权重会更大。 网页的排名来自于所有指向这个
阅读全文
摘要:转子:http://blog.csdn.net/thundermrbird/article/details/52231639 二分图匹配,自然要先从定义入手,那么二分图是什么呢? 二分图: 二分图又称作二部图,是图论中的一种特殊模型。 设G=(V,E)是一个无向图,如果顶点V可分割为两个互不相交的子
阅读全文
摘要:LDA算法最初的论文使用的是变分EM方法训练(Variational Inference)。该方法较为复杂,而且最后训练出的topic主题非全局最优分布,而是局部最优分布。后期发明了Collapsed Gibbs Sample方法,推导和使用较为简洁。 Latent Dirichlet Alloca
阅读全文