摘要:
已过时 1. ~~下载最新的markdown插件, "github" 解压后将 复制一份到notepad++安装目录的plugins里 现在再打开notepad++就能看到markdown插件的小图标了~~ 2. ~~设置markdown高亮 下载最新的markdown高亮配置文件, "github 阅读全文
摘要:
使用Hexo模板 按以下指导进行本地预览和上传到你的github。 环境安装 安装node.js node.js官方下载地址 设置npm淘宝镜像站(npm默认的源的下载速度可能很慢,建议使用淘宝镜像替换) 执行下面的命令,将npm的源设置成淘宝镜像站。 安装hexo执行以下命令安装hexo。 在 下 阅读全文
摘要:
使用Atom写你的笔记 本文参考 "简书笔记" 。 使用sync settings同步你的Atom设置 使用sync settings插件需要以下3个条件: 电脑已安装Atom Atom内已安装sync settings插件 拥有一个GitHub账号(因为需要将同步的信息上传到gits上) 安装sy 阅读全文
摘要:
下载Git 搜索“Git”,在官网中根据系统版本下载,并双击打开,按默认已勾选组件点下一步; 勾选在Windows命令行窗口中使用Git; 使用推荐的OpenSSL库用于HTTPS连接; 一路默认安装即可。 使用Git 命令创建仓库 1. 新建本地仓库 双击打开Git Bash,配置你的GitHub 阅读全文
摘要:
个人珍藏的PC和安卓应用列表 |PC应用名称|功能描述|注意事项|存储位置| |: :|: :|: :|: :| |维棠FLV视频下载软件|可用来下载 腾讯视频 的视频|将视频列表的网址粘贴到维棠软件左侧"下载"的地址中即可批量下载。|百度云 "腾讯视频下载工具.exe"| |Everything| 阅读全文
摘要:
PCA(Principal Component Analysis)与SVD 常用的降维方法有主成分分析(PCA),因子分析(Factor Analysis),独立成分分析(ICA)。 1. PCA优点:降低数据的复杂性;缺点:不一定非要用,且可能损失有用信息。适用于数值型数据 2. PCA算法概要: 阅读全文
摘要:
Apriori算法 1. 优点:易编码实现;缺点:大数据集上较慢;适用于:数值型或标称型数据。 2. 关联分析:寻找频繁项集(经常出现在一起的物品的集合)或关联规则(两种物品之间的关联关系)。 3. 概念:支持度:数据集中包含某项集的记录所占的比例P(A);可信度(置信度):对某个关联规则$A\ri 阅读全文
摘要:
K 均值聚类 1. 优点:易实现。缺点:可能收敛到局部最小值,大规模数据集上收敛较慢;适用于数值型数据。 2. K 均值聚类(找到给定数据集的k个簇) 算法流程 伪代码: 3. 评价指标:误差(实质上是数据点到簇质心的距离的平方值之和,SSE,Sum of Squared Error),以上K 均值 阅读全文
摘要:
CART(classification and regression trees)树回归 1. 优点:可对 复杂 和 非线性 的数据建模;缺点:结果不易理解;适用于:数值型和标称型。 2. 构建树函数createTree()的伪代码: 3. 选择最好的划分方式 伪代码:用于回归树和模型树 pytho 阅读全文
摘要:
回归 线性回归 设$\mathbf{x}^{\mathbf{T}}$向量第一列全为1,即$x_{0} = 1$,这样$x_{0}w_{0}$代表的是截距,$x_{1}w_{1}$是斜率: 设回归方程$y_{i}^{'} =\mathbf{x}_{\mathbf{i}}^{T}\mathbf{\ome 阅读全文
摘要:
AdaBoost(Adaptive boosting)元算法 元算法:将不同分类器组合起来的结果,也叫集成方法。 AdaBoost优点:泛化错误率,易编码,可应用在大部分分类器,无参数调整;缺点:对离群点敏感;适用于:数值型和标称型。 自举汇聚法(Bootstrap aggregating, bag 阅读全文
摘要:
朴素贝叶斯 (计算 每类下个特征的条件概率之积 和 该类概率 的乘积) 朴素贝叶斯的特点: | 特点 | 例 | | | | | 优点:数据较少时依然有效,可处理多类别问题; 缺点:对输入数据的准备方式比较敏感; 适用数据类型:标称。 | 文档分类(用关键词) 过滤垃圾邮件(某些关键词是否有侮辱性) 阅读全文
摘要:
Logistic回归 | 优缺点 | 适用范围 | | | | | 优点:计算代价不高,易于理解和实现。 缺点:容易欠拟合,分类精度可能不高。 适用于:数值型和标称型数据。 | 仅用于二分类 | 原理: 每个特征都乘以一个回归系数 将结果相加 总和代入到Sigmoid函数,得到范围在(0,1)中的数 阅读全文
摘要:
决策树 (迭代地寻找划分样本集的最好特征,按该特征划分时信息增益最大) 决策树算法的优缺点 | 特点 | 例 | | | | | 优点:计算复杂度不高, 输出结果易于理解 ,对中间值的缺失不敏感, 可处理不相关特征数据。 缺点: 可能产生过度匹配的问题。 适用数据类型:数值型和标称型。 | 隐形眼镜 阅读全文
摘要:
k 近邻算法(kNN) =============== 本质是(提取样本集中特征最相似数据(最近邻)的k个分类标签)。 | K 近邻算法的优缺点 | 例 | | | | | 优点:精度高,对异常值不敏感,无数据输入假定; 缺点:计算复杂度高,空间复杂度高; 适用于:数值型和标称型。 | 手写数字识别 阅读全文