只有注册用户登录后才能阅读该文。 阅读全文
摘要:
python种距离计算包括两种方式,一是用scipy.spatial.distance里面包括的距离很多 [‘braycurtis’, ‘canberra’, ‘chebyshev’, ‘correlation’, ‘dice’, ‘hamming’, ‘jaccard’, ‘kulsinski’, 阅读全文
摘要:
一、推荐系统概念简介 推荐系统的本质是信息过滤,解决信息过载问题,将用户与物品联系起来。其实推荐系统很好的好处是发现长尾,大家可以看看长尾理论这本书~ 与搜索引擎不同,不需要用户提供明确需求,而是通过分析用户的历史行为给用户的兴趣建模,从而主动给用户推荐能够满足给他们兴趣和需求信息。 个性化推荐系统 阅读全文
摘要:
1.安装graphviz。下载地址在:http://www.graphviz.org/。如果你是linux,可以用apt-get或者yum的方法安装。如果是windows,就在官网下载msi文件安装。无论是linux还是windows,装完后都要设置环境变量,将graphviz的bin目录加到PAT 阅读全文
摘要:
一、一些概念 互信息: 两个随机变量x和Y的互信息,定义X, Y的联合分布和独立分布乘积的相对熵。 贝叶斯公式: 贝叶斯带来的思考: 给定某些样本D,在这些样本中计算某结论出现的概率,即 给定样本D 所以可以推出,再假定p(Ai)相等,可以推出,这个就是最大似然估计做的事情,看下取哪个参数的时候,D 阅读全文
摘要:
特征工程 一、特征处理 1. 正负样本不均衡问题 a) Oversampleing b) 修改损失函数 c) 取n份正样本 与 负样本 分别构建分类器,然后vote 2. 数值特征处理 a) 归一化 b) Log变换 c) 统计max min mean std d) 离散化 e) HASH分桶 f) 阅读全文
摘要:
关联规则:评定规则的标准 支持度:规则前项LHS和规则后项RHS所包括的商品都同时出现的概率,LHS和RHS商品的交易次数/总交易次数。 置信度:在所有的购买了左边商品的交易中,同时又购买了右边商品的交易机率,包含规则两边商品的交易次数/包括规则左边商品的交易次数。 提升度(有这个规则和没有这个规则 阅读全文
摘要:
为什么除了人工神经网络,又冒出来卷积神经网络、循环神经网络等等,因为之前人工神经网络的框架,对于高纬度的图像等数据需要求的W太多。卷积神经网络,可以参数共享(指的是各神经元有自己的固定参数),保持了层级网络结构,不同层次有不同形式(运算)与功能(而人工神经网络都是全连接)。三个关键点:local c 阅读全文
摘要:
1.\d 代表任意一个数字 \D代表任意字母 \s 表示所有长得像空格的东西,包括换行 2.\w 代表数字,字母和下划线 3. *匹配前一个字符0或者无限次 (贪婪字符,但凡有就要一直去下去,?是有节制的) .匹配除换行符以外的所有字符 g全局匹配 4. [] 自定义正则化,每个字母代表一个值 [^ 阅读全文
摘要:
Adaboost\GBDT\GBRT\组合算法(龙心尘老师上课笔记) 一、Bagging (并行bootstrap)& Boosting(串行) 随机森林实际上是bagging的思路,而GBDT和Adaboost实际上是boosting的思路。而bagging和boosting有什么区别呢?怎样从b 阅读全文