03 2020 档案

摘要:Ubuntu 的 Swappiness 参数决定了 Swap 分区如何使用,当 Swappiness = 0 时,表示最大限度使用物理内存,然后才使用 Swap,当 Swappiness = 100 时,表示最大限度使用 Swap,然后才使用物理内存,这个值的初始值是 60,用 Swap 比较多,性 阅读全文
posted @ 2020-03-31 21:42 moon~light 阅读(1376) 评论(0) 推荐(0) 编辑
摘要:Ubuntu 16.04 默认装的是 Python3.5 方式一: sudo add apt repository ppa:jonathonf/python 3.6 sudo apt get update sudo apt get install python3.6 方式二: wget https: 阅读全文
posted @ 2020-03-29 15:47 moon~light 阅读(173) 评论(0) 推荐(0) 编辑
摘要:安装 Keras 有两个 Backend,也就是 Keras 基于什么东西来做运算 Keras 的两个 Backend,一个是 Theano,一个是 TensorFlow 每次当我们 import keras 的时候, 就会看到屏幕显示当前使用的 Backend 配置文件 直接修改配置文件可能会在 阅读全文
posted @ 2020-03-27 00:31 moon~light 阅读(298) 评论(0) 推荐(0) 编辑
摘要:```python coding:utf 8 import tensorflow as tf ''' 出现以下 Warning Your CPU supports instructions that this TensorFlow binary was not compiled to use: SS 阅读全文
posted @ 2020-03-27 00:11 moon~light 阅读(176) 评论(0) 推荐(0) 编辑
摘要:安装 sklearn.datasets 这个包提供一些函数用于读取样本数据(数据存在 .csv 或 .csv.gz 文件),比如 酒数据集(用于分类) 13 个特征包括各种成分的含量、酒的颜色等 3 个分类简单的标记为 class_0、class_1、class_2 参数 return_X_y 表示 阅读全文
posted @ 2020-03-26 23:50 moon~light 阅读(687) 评论(0) 推荐(0) 编辑
摘要:传统的机器学习算法非常依赖人工提取特征,使得图像识别、语音识别、自然语音处理等问题存在特征提取的瓶颈 基于全连接神经网络的方法存在参数太多、无法利用时间序列信息等问题 卷积神经网络(CNN)解决图像的特征提取问题、参数太多问题 循环神经网络(RNN)解决利用时间序列信息的问题 RNN 主要用于语音识 阅读全文
posted @ 2020-03-25 23:27 moon~light 阅读(429) 评论(0) 推荐(0) 编辑
摘要:###和全连接神经网络的主要差别 全连接神经网络: 每个神经元的输入数据,都使用了上一层的所有神经元的输出数据,每个神经元的输出数据,都被作为下一层的所有神经元的输入数据,这容易导致参数数量膨胀、过拟合、容易陷入局部最优,尤其用于图像识别时,如果把每个像素当成一个特征,则会有大量的特征值,比如一副 阅读全文
posted @ 2020-03-25 21:56 moon~light 阅读(633) 评论(0) 推荐(0) 编辑
摘要:###神经元模型 神经元具有如下三个功能 1. 能够接收 n 个神经元模型传递过来的信号 2. 能够在信号的传递过程中为信号分配权重 3. 能够将得到的信号进行汇总、变换并输出 ![](https://img2020.cnblogs.com/blog/1926863/202003/1926863-2 阅读全文
posted @ 2020-03-21 21:19 moon~light 阅读(668) 评论(0) 推荐(0) 编辑
摘要:EM 算法(Expectation Maximization 期望最大化)是一种迭代算法,用于含有隐变量的概率模型参数的极大似然估计 比如班里有 100 个学生,我们拥有所有人的身高数据,但不知道哪些是男生,哪些是女生,未知的性别就是隐变量 1. 先自己假设男生的正态分布的参数、女生的正态分布的参数 阅读全文
posted @ 2020-03-15 13:38 moon~light 阅读(194) 评论(0) 推荐(0) 编辑
摘要:极大似然估计(Maximum Likelihood Estimate,MLE) 由于样本数据,是实实在在发生的数据,有理由相信该样本出现的概率本来就比较大,极大似然估计假设该样本出现的概率是最大的,然后通过该样本寻找一组参数,该参数使得该样本出现的概率最大 比如:班里有 50 个男生,50 个女生, 阅读全文
posted @ 2020-03-15 01:34 moon~light 阅读(325) 评论(0) 推荐(0) 编辑
摘要:基于协同过滤(collaborative filtering)的推荐引擎,是通过将用户和其他用户的数据进行对比来实现推荐 不是利用属性来描述物品从而计算它们之间的相似度,而是利用用户对它们的意见来计算相似度,这就是协同过滤中所使用的方法,它并不关心物品的描述属性,而是严格地按照许多用户的观点来计算相 阅读全文
posted @ 2020-03-14 22:03 moon~light 阅读(270) 评论(0) 推荐(0) 编辑
摘要:SVD(Singular Value Decomposition,奇异值分解)是一种强大的降维工具 很多情况下,数据的一小段携带了大部分信息,其他要么是噪声,要么就是毫不相关的信息,SVD 是矩阵分解的一种,可以把 SVD 看成是从噪声数据中抽取相关特征 优点:简化数据,去除噪声,提高算法的结果 缺 阅读全文
posted @ 2020-03-14 20:56 moon~light 阅读(338) 评论(0) 推荐(0) 编辑
摘要:降维 (dimensionality reduction)就是减少数据特征的维度 作用 使得数据集更易使用 降低很多算法的计算开销 去除噪声 使得结果易懂 PCA(主成分分析 Principal Component Analysis) PCA 将数据从原来的坐标系转换到了新的坐标系 第一个新坐标轴选 阅读全文
posted @ 2020-03-14 18:40 moon~light 阅读(417) 评论(0) 推荐(0) 编辑
摘要:FP growth(Frequent Pattern Growth)算法用于发现频繁项集 作用:比 Apriori 更高效的发现频繁项集 特点:快于 Apriori、实现比较困难 Apriori 每次增加频繁项集的大小,都会重新扫描整个数据集 当数据集很大时,这会显著降低频繁项集发现的速度 FP g 阅读全文
posted @ 2020-03-14 15:34 moon~light 阅读(414) 评论(0) 推荐(0) 编辑
摘要:优点:易编码实现 缺点:在大数据集上可能较慢 从大规模数据集中寻找物品间的隐含关系被称作 关联分析 (association analysis)或者 关联规则学习 (association rule learning) 比如购买商品 A 的顾客有多大概率同时购买商品 B,比如用户在搜索框输入 "py 阅读全文
posted @ 2020-03-12 23:32 moon~light 阅读(235) 评论(0) 推荐(0) 编辑
摘要:K Mean(K 均值聚类)算法用于将数据集分成 K 个簇,K 值是由用户给定的 优点:容易实现 缺点:可能收敛到局部最小值,在大规模数据集上收敛较慢 算法 随机初始化 k 个簇中心点 每个中心点的每个特征值在所有样本的最大值和最小值之间随机取一个 每个样本分到距离最近的簇 取分到该簇的所有样本的均 阅读全文
posted @ 2020-03-10 01:37 moon~light 阅读(345) 评论(0) 推荐(0) 编辑
摘要:CART(Classification And Regression Trees,分类回归树)算法既可以用于分类也可以用于回归 优点:可以对复杂和非线性的数据建模 缺点:结果不易理解 线性回归需要拟合所有的样本(局部加权线性回归除外),当特征众多并且特征之间关系十分复杂时,构建全局模型的想法就显得太 阅读全文
posted @ 2020-03-09 23:51 moon~light 阅读(267) 评论(0) 推荐(0) 编辑
摘要:优点:结果易于理解,计算上不复杂 缺点:对非线性的数据拟合不好 线性回归 用于数值预测,回归方程为 y=x1w1+x2w2+...+xnwn+b 写成矩阵形式 y=XW+b 为方便计算,添加 $\la 阅读全文
posted @ 2020-03-08 22:12 moon~light 阅读(237) 评论(0) 推荐(0) 编辑
摘要:加法 A+B=B+A (A+B)+C=A+(B+C) 与数相乘 (λμ)A=λ(μA) (λ+μ)A=λA+μA λ(A+B)=λA+λB 矩阵相乘 $\large (AB) 阅读全文
posted @ 2020-03-08 22:06 moon~light 阅读(1905) 评论(0) 推荐(0) 编辑
摘要:xgboost(eXtreme Gradient Boosting) 大规模并行 boosting tree 的工具,据说是现在最好用的 boosting 算法,针对传统 GBDT 算法做了很多改进 xgboost 和传统 GBDT 的区别 GBDT 基学习器只用 CART 树,而 xgboost 阅读全文
posted @ 2020-03-07 19:46 moon~light 阅读(356) 评论(0) 推荐(0) 编辑
摘要:GBDT(Gradient Boosting Decison Tree):梯度提升决策树 GBDT 的弱学习器通常使用 CART 回归树 GBDT 的核心在于,每棵树学的是之前所有树的结论和的残差,比如 A 的年龄 18 岁,第一棵树依据特征值预测 12 岁,差 6 岁,即残差为 6 岁,那么第二棵 阅读全文
posted @ 2020-03-02 01:49 moon~light 阅读(217) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示