随笔分类 - 机器学习/深度学习
摘要:XGBoost也可以用于时间序列预测,尽管要先把时间序列数据集转换成适用于有监督学习的形式。它还需要使用一种专门的技术来评估模型,称为前向推进验证,因为模型评估使用了k-折叠交叉,这会产生有正偏差的结果。 在本文中,你将会了解到如何开发应用于时间序列预测的XGBoost模型。 完成本教程后,你将知道
阅读全文
摘要:机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别输出的类别的众树而定,它有着许多的有点,能很好地处理多分类问题。 基本算法 原始训练集为N,应用bootstrap法有放回的随机抽取k个新的自助样本集,并由构建k棵决策树。每次未被抽到的样本组成了k个袋外数据; 设有M个变量,
阅读全文
摘要:一道关于疾病检验的概率的问题? A女士怀疑自己得了某种肝炎,希望在医院做一次检测。医生告诉A女士,她所属的人群得此种肝炎的概率仅有千分之一。 但A女士不放心,还是坚持做了测试。然而很不幸,测试结果为阳性。现在已知测试仪器的正确率为95%,那么A女士确实得了肝炎而非误诊的概率为多少? 这题的考点是贝叶
阅读全文
摘要:拉格朗日乘子法与KKT条件: https://www.cnblogs.com/ooon/p/5721119.html 拉格朗日对偶: https://www.cnblogs.com/ooon/p/5723725.html 凸优化简介: https://www.cnblogs.com/ooon/p/5
阅读全文
摘要:一、什么是循环神经网络: 循环神经网络(Rerrent Neural Network, RNN),RNN是神经网络的一种,类似的还有深度神经网络DNN,卷积神经网络CNN,生成对抗网络GAN,等等。 RNN的特点,RNN对具有序列特性的数据非常有效,它能挖掘数据中的时序信息以及语义信息,利用了RNN
阅读全文
摘要:前言:如果死记硬背的话很难,可当推导一遍并且细细研究里面的缘由的话,问什么问题都可以由公式推导得到结论,要会推导; 一. 简单概括一下SVM: SVM 是一种二类分类模型。它的基本思想是在特征空间中寻找间隔最大的分离超平面使数据得到高效的二分类,具体来讲,有三种情况(不加核函数的话就是个线性模型,加
阅读全文
摘要:一.优化器算法简述 首先来看一下梯度下降最常见的三种变形 BGD,SGD,MBGD,这三种形式的区别就是取决于我们用多少数据来计算目标函数的梯度,这样的话自然就涉及到一个 trade-off,即参数更新的准确率和运行时间。 1.Batch Gradient Descent (BGD) 梯度更新规则:
阅读全文
摘要:简介XGboost可以引出GBDT,引出bagging和boosting,引出随机森林集成学习是指用某种策略将多个分类器预测的结果集成起来,作为最终的预测结果,有boost和bagging两种方法(boosting 各分类器之间有依赖关系,bagging各分类器之间没有依赖关系,可并行),boost
阅读全文
摘要:1、测模型标记语言(Predictive Model Markup Language,以下简称PMML),来实现跨平台的机器学习模型部署 https://www.cnblogs.com/pinard/p/9220199.html 2、tensorflow机器学习模型的跨平台上线 https://ww
阅读全文
摘要:在对不平衡数据进行训练时,通常会考虑一下怎么处理不平衡数据能使训练出来的结果较好。能想到的比较基础的方法是过采样和下采样来缓解数据中的正负样本比。 在用xgboost训练二分类模型时,除了直接使用过采样和下采样,xgboost接口还提供一些处理不平衡数据的方法,有scale_pos_weight参数
阅读全文
摘要:数据平衡 为什么要对数据进行采样 是否一定需要对原始数据进行采样平衡 有哪些常见的采样方法 能否避免采样 你平时怎么用采样方法 异常点处理 统计方法 矩阵分解方法 特征值和特征向量的本质是什么 矩阵乘法的实际意义 密度的离群点检测 聚类的离群点检测 如何处理异常点 缺失值处理 是不是一定需要对缺失值
阅读全文
摘要:GBDT原理和推导:https://blog.csdn.net/yangxudong/article/details/53872141 Pyspark 分类、回归、聚类示例: https://blog.csdn.net/littlely_ll/article/details/78151964 htt
阅读全文
摘要:GBTRegressor 模型评估指标和特征重要度分析 官方文档:https://spark.apache.org/docs/2.2.0/api/python/_modules/pyspark/ml/regression.html 和随机森林类似,训练好model 可用如下代码打印特征以及重要度排序
阅读全文
摘要:1、数据迁移过程中,验证数据拷贝后大小是否一致; shell命令: hadoop fs -count -q 目录 ps: 查看目录下总的大小 dfs -count -q 目录 ps:一样的 hadoop fs -du 目录 ps:查看目录下每个子目录的大小 2、随机森林和GBDT的区别 https:
阅读全文
摘要:知乎大神总结异常点检测的基本算法: 异常点检测算法(一) 异常值检测算法(二) 异常点检测算法(三) 异常点检测算法综述 一般流程: 原始数据 -> 无监督算法 -> 人工标注 -> 特征工程 -> 有监督算法 异常检测研究资料: https://github.com/yzhao062/anomal
阅读全文
摘要:使用python进行自然语言处理,有一些第三方库供大家使用: ·NLTK(Python自然语言工具包)用于诸如标记化、词形还原、词干化、解析、POS标注等任务。该库具有几乎所有NLP任务的工具。 ·Spacy是NLTK的主要竞争对手。这两个库可用于相同的任务。 ·Scikit-learn为机器学习提
阅读全文