摘要:
作者:JSong, 日期:2017.10.10 集成学习(ensemble learning)通过构建并结合多个学习器来完成学习任务,常可获得比单一学习器显著优越的泛化性能,这对“弱学习器”尤为明显。 目前,有三种常见的集成学习框架:bagging,boosting和stacking。第一种是并行的 阅读全文
摘要:
转自 "LDA数学八卦" 在 Machine Learning 中,LDA 是两个常用模型的简称: Linear Discriminant Analysis 和 Latent Dirichlet Allocation, 在这篇文章中我们主要八卦的是后者。LDA 是一个在文本建模中很著名的模型,类似于 阅读全文
摘要:
文/JSong @2017.02.28 在数据分析里面有一句话是说,80%的时间要用于数据清洗和整理,而我觉得理想的状态应该是把更多的把时间花在数据背后的洞察当中。去年11月在简书 "占了个坑" ,说要自己写一个工具来解决,今天我来填坑了。 1、解决方案概述 1. 工具包: "reportgen" 阅读全文
摘要:
这篇教程将带您一起玩转树莓派3(Raspberry Pi 3)。和普通PC一样,拿到新设备第一件事就是要给它安装一个操作系统,并做一些初始化的操作。比PC简单的是,树莓派是一个固定配置的硬件板子,并没有像PC那样有很多硬件组合的情况,因此可以很方便的给它打造一个专用的系统。安装系统主要就是一个存储卡 阅读全文
摘要:
本文将介绍Matlab的两个实用技巧。一键生成Word版本的报告和PDF版本的数学试卷。其中第一个技巧Matlab之前都是通过调用COM接口来实现的,类似于VBA,虽然可做的事情很多,但并不适合一般的童鞋。第二个技巧,灵感来源于一位研究僧同学。大致意思是根据现有的数学题库来科学快捷的生成一份试卷。本 阅读全文
摘要:
1. 机器学习 2. NLP 3. code | | 实际好人 | 实际坏人 | 预测百分比 | : : |: :| : :| : :| | 预测好人 | $p_GF^c(s_c\|G)$ | $p_BF^c(s_c\|B)$ |$F^c(s_c)$| | 预测坏人 | $p_GF(s_c\|G)$ 阅读全文
摘要:
简单粗暴的安装 对于懒人而言,我还是喜欢直接安装python的集成开发环境 anaconda 多个内核控制 "jupyter官网" 1). 同时支持python2 和python 3 2). 添加其他的核,如R、ruby等等 见官网: "支持的核" 3). 修改默认启动文件夹 打开 cmd 输入命令 阅读全文
摘要:
JSong @2016.06.13 本系列文章不适合入门,是作者综合各方资源和个人理解而得. 另外最好有数学基础, 因为数学人一言不合就会上公式. 简单模型的魅力在于它能从各个角度去欣赏. 逻辑回归是最简单的二分类模型之一,实际应用中二分类最常见,如判定是否是垃圾邮件,是否是人脸,是否值得借贷等, 阅读全文
摘要:
序 殊途同归的算法,本文将从数学,概率和信息论的角度来说明常见的几种机器学习算法都是等价的。一定程度上 最大熵模型(Maximum Entopy :MaxEnt),逻辑回归(Logit Regression),softmax 回归, 对数线性模型, 广义线性模型(指数模型), energy ... 阅读全文
摘要:
很多算法都要计算各个样本之间的距离,根据样本数据空间的不同,所采用的距离也五花八门。本文的目的就是对常用的距离度量做一个总结。虽然网上已有一些总结,但是本文想从测度论角度重新考虑这个问题。(还是继续欠着吧,没时间啊) 阅读全文