|旧市拾荒|

2019年8月12日

摘要：四、特征重要性衡量通过上面可以发现准确率有小幅提升，但是似乎得到的结果还是不太理想。我们可以发现模型似乎优化的差不多了，使用的特征似乎也已经使用完了。准确率已经达到了瓶颈，但是如果我们还想提高精度的话，还是要回到最原始的数据集里面。对分类器的结果最大的影响还是输入的数据本身。接下来采用的方法一般是阅读全文

posted @ 2019-08-12 09:24 |旧市拾荒| 阅读(2088) 评论(0) 推荐(2) 编辑

2019年8月10日

机器学习项目实战----泰坦尼克号获救预测(一)

摘要：一、任务基础泰坦尼克号沉没是历史上最著名的沉船事故之一。1912年4月15日，在她的处女航中，泰坦尼克号在与冰山相撞后沉没，在2224名乘客和机组人员中造成1502人死亡。这场耸人听闻的悲剧震惊了国际社会，并为船舶制定了更好的安全规定。造成海难失事的原因之一是乘客和机组人员没有足够的救生艇。尽管幸阅读全文

posted @ 2019-08-10 17:00 |旧市拾荒| 阅读(7883) 评论(3) 推荐(2) 编辑

2019年8月4日

机器学习之集成算法

摘要：一、集成算法目的：让机器学习效果更好，单个机器学习算法不行，就用多个机器算法集成。 Bagging模型：训练多个分类器取结果的平均 Boosting模型：从弱学习器开始加强，通过加权来进行训练（加入一棵树，要比原来强） Stacking模型：聚合多个分类或回归模型（可以分阶段来做）二、Baggi 阅读全文

posted @ 2019-08-04 17:15 |旧市拾荒| 阅读(689) 评论(0) 推荐(0) 编辑

2019年7月30日

机器学习之使用sklearn构造决策树模型

摘要：一、任务基础导入所需要的库加载sklearn内置数据集，查看数据描述数据集包含房价价格以及影响房价的一些因素查看数据集维度查看第一条数据二、构造决策树模型决策树模型参数: （1）criterion gini or entropy 基尼系数或者熵（2）splitter best or 阅读全文

posted @ 2019-07-30 09:19 |旧市拾荒| 阅读(2819) 评论(0) 推荐(1) 编辑

2019年7月28日

机器学习之决策树算法

摘要：一、决策树在机器学习中，决策树是一个预测模型；他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象，而每个分叉路径则代表的某个可能的属性值，而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出，若欲有复数输出，可以建立独立的决策树以处理不同输出。数阅读全文

posted @ 2019-07-28 15:17 |旧市拾荒| 阅读(926) 评论(0) 推荐(0) 编辑

2019年7月19日

Python 文件编码问题解决

摘要：最近使用python操作文件，经常遇到编码错误的问题，例如：我看百度的解决方法就是手动指定编码方式，类似于以下这种方式：虽然这种类似的方法也能解决。但是这种方法只能靠运气去碰，如果刚好碰到文件编码和你指定的编码一致，那么就不会报错了。这种方式在尝试的过程就会很麻烦。这里就有一个解决的小技巧，我阅读全文

posted @ 2019-07-19 16:26 |旧市拾荒| 阅读(717) 评论(0) 推荐(0) 编辑

机器学习项目实战----信用卡欺诈检测(二)

摘要：六、混淆矩阵：混淆矩阵是由一个坐标系组成的，有x轴以及y轴，在x轴里面有0和1，在y轴里面有0和1。x轴表达的是预测的值，y轴表达的是真实的值。可以对比真实值与预测值之间的差异，可以计算当前模型衡量的指标值。这里精度的表示：(136+138)/(136+13+9+138)。之前有提到recall 阅读全文

posted @ 2019-07-19 09:21 |旧市拾荒| 阅读(3144) 评论(2) 推荐(1) 编辑

2019年7月18日

机器学习项目实战----信用卡欺诈检测(一)

摘要：一、任务基础数据集包含由欧洲人于2013年9月使用信用卡进行交易的数据。此数据集显示两天内发生的交易，其中284807笔交易中有492笔被盗刷。数据集非常不平衡，正例（被盗刷）占所有交易的0.172％。，这是因为由于保密问题，我们无法提供有关数据的原始功能和更多背景信息。特征V1，V2，... V 阅读全文

posted @ 2019-07-18 22:07 |旧市拾荒| 阅读(9395) 评论(2) 推荐(4) 编辑

2019年7月10日

机器学习之使用Python完成逻辑回归

摘要：一、任务基础我们将建立一个逻辑回归模型来预测一个学生是否被大学录取。假设你是一个大学系的管理员，你想根据两次考试的结果来决定每个申请人的录取机会。你有以前的申请人的历史数据，你可以用它作为逻辑回归的训练集。对于每一个培训例子，你有两个考试的申请人的分数和录取决定。为了做到这一点，我们将建立一个分类阅读全文

posted @ 2019-07-10 09:44 |旧市拾荒| 阅读(2258) 评论(0) 推荐(0) 编辑

2019年7月6日

逻辑回归算法

摘要：一、逻辑回归逻辑回归也被称为对数几率回归，算法名虽然叫做逻辑回归，但是该算法是分类算法，这是因为逻辑回归用了和回归类似的方法来解决了分类问题。机器学习基本原则：先逻辑回归再用复杂的，能简单还是用简单的。逻辑回归的决策边界：可以是非线性的。二、Sigmoid函数 Sigmoid函数公式：函数阅读全文

posted @ 2019-07-06 16:08 |旧市拾荒| 阅读(521) 评论(0) 推荐(0) 编辑

2019年7月3日

机器学习之梯度下降

摘要：一、梯度下降引入：当我们得到了一个目标函数后，如何进行求解？直接求解吗？（并不一定可以直接求解，线性回归可以当做是一个特例）梯度：梯度的本意是一个向量（矢量），表示某一函数在该点处的方向导数沿着该方向取得最大值，即函数在该点处沿着该方向（此梯度的方向）变化最快，变化率最大（为该梯度的模）。在机器阅读全文

posted @ 2019-07-03 23:10 |旧市拾荒| 阅读(726) 评论(0) 推荐(0) 编辑

线性回归算法原理推导

摘要：机器学习的有监督算法分为分类和回归两种。回归：通过输入的数据，预测出一个值，如银行贷款，预测银行给你贷多少钱。分类：通过输入的数据，得到类别。如，根据输入的数据，银行判断是否给你贷款。一、线性回归现在这里有一个例子数据：工资和年龄（2个特征）目标：预测银行会贷款给我多少钱（标签）考虑：阅读全文

posted @ 2019-07-03 22:08 |旧市拾荒| 阅读(1305) 评论(0) 推荐(0) 编辑

2019年6月22日

Spark之RDD容错原理及四大核心要点

摘要：一、Spark RDD容错原理 RDD不同的依赖关系导致Spark对不同的依赖关系有不同的处理方式。对于宽依赖而言，由于宽依赖实质是指父RDD的一个分区会对应一个子RDD的多个分区，在此情况下出现部分计算结果丢失，单一计算丢失的数据无法达到效果，便采用重新计算该步骤中的所有数据，从而会导致计算数据阅读全文

posted @ 2019-06-22 21:57 |旧市拾荒| 阅读(2065) 评论(0) 推荐(0) 编辑

2019年6月17日

Spark之RDD依赖关系及DAG逻辑视图

摘要： RDD依赖关系为成两种：窄依赖（Narrow Dependency）、宽依赖（Shuffle Dependency）。窄依赖表示每个父RDD中的Partition最多被子RDD的一个Partition所使用；宽依赖表示一个父RDD的Partition都会被多个子RDD的Partition所使用。一阅读全文

posted @ 2019-06-17 17:11 |旧市拾荒| 阅读(1284) 评论(0) 推荐(1) 编辑

2019年6月4日

Spark之RDD弹性特性

摘要： RDD作为弹性分布式数据集，它的弹性具体体现在以下七个方面。 1．自动进行内存和磁盘数据存储的切换 Spark会优先把数据放到内存中，如果内存实在放不下，会放到磁盘里面，不但能计算内存放下的数据，也能计算内存放不下的数据。如果实际数据大于内存，则要考虑数据放置策略和优化算法。当应用程序内存不足时，S 阅读全文

posted @ 2019-06-04 20:48 |旧市拾荒| 阅读(2243) 评论(0) 推荐(0) 编辑

三年工作经验，任职于某银行科技部门，从事后端开发与数据开发。

公告