摘要: 广义来说,有三种机器学习算法 1、 监督式学习 工作机制:这个算法由一个目标变量或结果变量(或因变量)组成。这些变量由已知的一系列预示变量(自变量)预测而来。利用这一系列变量,我们生成一个将输入值映射到期望输出值的函数。这个训练过程会一直持续,直到模型在训练数据上获得期望的精确度。监督式学习的例子有 阅读全文
posted @ 2018-05-24 09:53 我不是小鲁班 阅读(162) 评论(0) 推荐(0) 编辑
摘要: 超级尴尬,刚装的win7 系统居然过期了。下次再也不装盗版了,吼吼吼 处理方法就是下载oem7F7 软件安装,不用再怎么操作就好了。 就是这么简单,并不用像网上那样找什么激活码。 阅读全文
posted @ 2018-05-23 15:05 我不是小鲁班 阅读(1095) 评论(0) 推荐(0) 编辑
摘要: #打开txt文件 数据合并 数据聚合 csv数据合并: 读取片段: 按照列名读取 要把第三列数据中的0值删除,今天弄了好几个小时,写了个循环,还是不行,最后发现,只要选择数据中大于0的就可以了 另一种思路,是把该列中数据为0的值挑出来,然后给赋值成nan,再用下面代码将nan值删除 字符串数据转换成 阅读全文
posted @ 2018-05-14 17:28 我不是小鲁班 阅读(1768) 评论(0) 推荐(0) 编辑
摘要: 梯度提升树是一种决策树的集成算法。它通过反复迭代训练决策树来最小化损失函数。决策树类似,梯度提升树具有可处理类别特征、易扩展到多分类问题、不需特征缩放等性质。Spark.ml通过使用现有decision tree工具来实现。 梯度提升树依次迭代训练一系列的决策树。在一次迭代中,算法使用现有的集成来对 阅读全文
posted @ 2018-05-09 10:32 我不是小鲁班 阅读(2429) 评论(0) 推荐(0) 编辑
摘要: 线性回归 线性回归是最基础的机器学习算法,它是用一条直线去拟合数据,适用于线性数据。 线性回归包括一元线性回归和多元线性回归,一元的是只有一个x和一个y。多元的是指有多个x和一个y。 (一元) (多元) 我们希望这些点尽量离这条直线近一点。即去找每个点和直线的距离 最小的那条线,为了简单起见,将绝对 阅读全文
posted @ 2018-05-08 15:50 我不是小鲁班 阅读(2421) 评论(0) 推荐(0) 编辑
摘要: 首先,切换文件路径到所在文件夹 然后,将txt文件内容按行读取,写入到all.txt #读取为DataFrame格式 阅读全文
posted @ 2018-05-07 21:20 我不是小鲁班 阅读(1690) 评论(0) 推荐(0) 编辑
摘要: https://blog.csdn.net/suzyu12345/article/details/69029106一篇很详细的博客 这里只画了不同特征之间关系的图,即用pairpoint函数,用到的数据是电影数据,上篇博客当中有下载链接,结果如下: 代码如下: 数据分布直方图 阅读全文
posted @ 2018-05-03 16:31 我不是小鲁班 阅读(569) 评论(0) 推荐(1) 编辑
摘要: 2018-04-26 1.协同过滤 协同过滤(Collaborative Filtering)字面上的解释就是在别人的帮助下来过滤筛选,协同过滤一般是在海量的用户中发现一小部分和你品味比较相近的,在协同过滤中,这些用户称为邻居,然后根据他们喜欢的东西组织成一个排序的目录来推荐给你。问题的重点就是怎样 阅读全文
posted @ 2018-04-26 11:15 我不是小鲁班 阅读(10679) 评论(0) 推荐(0) 编辑
摘要: 软件测试:单元测试,集成测试,性能测试,黑白盒测试....... 1、软件测试含义 2、软件测试遵循准则 3、软件测试分类和概念 4、什么时候测试,测试方案设计 5、测试流程,怎么提bug,写报告 6、自动化 1、什么是软件测试? 经典定义:测试是为了发现错误而执行程序的过程。 IEEE定义:使用人 阅读全文
posted @ 2018-04-24 16:54 我不是小鲁班 阅读(211) 评论(0) 推荐(0) 编辑
摘要: 数据说明:MovieLens数据集,它包含来自于943个用户以及精选的1682部电影的100K个电影打分。每个用户至少为20部电影打分,数据类型user id | item id | rating | timestamp. 地址:https://grouplens.org/datasets/movi 阅读全文
posted @ 2018-04-19 18:36 我不是小鲁班 阅读(4045) 评论(0) 推荐(0) 编辑