摘要: 二.Apriori算法 上文说到,大多数关联规则挖掘算法通常采用的策略是分解为两步: 频繁项集产生,其目标是发现满足具有最小支持度阈值的所有项集,称为频繁项集(frequent itemset)。 规则产生,其目标是从上一步得到的频繁项集中提取高置信度的规则,称为强规则(strong rule)。通 阅读全文
posted @ 2017-12-11 11:43 yuanninesuns 阅读(1181) 评论(0) 推荐(0) 编辑
摘要: 一.基本概念 我们来看上面的事务库,如同上表所示的二维数据集就是一个购物篮事务库。该事物库记录的是顾客购买商品的行为。这里的TID表示一次购买行为的编号,items表示顾客购买了哪些商品。 事务: 事务库中的每一条记录被称为一笔事务。在上表的购物篮事务中,每一笔事务都表示一次购物行为。 项集(T): 阅读全文
posted @ 2017-12-11 11:28 yuanninesuns 阅读(3597) 评论(0) 推荐(0) 编辑
摘要: 微信公众号关注我,更多计算机知识告诉你! 1 import pandas as pd 2 df1 = pd.DataFrame([[1,2,3],[1,10,20],[5,6,7],[3,9,0],[8,0,3]],columns=['x1','x2','x3']) 3 df2 = pd.DataF 阅读全文
posted @ 2017-12-01 15:55 yuanninesuns 阅读(16992) 评论(1) 推荐(0) 编辑
摘要: 一、概要 通常情况下,当向Spark操作传递一个函数时,它会在一个远程集群节点上执行,它会使用函数中所有变量的副本。这些变量被复制到所有的机器上,远程机器上并没有被更新的变量会向驱动程序回传。在任务之间使用通用的,支持读写的共享变量是低效的。尽管如此,Spark提供了两种有限类型的共享变量,广播变量 阅读全文
posted @ 2017-11-29 20:04 yuanninesuns 阅读(329) 评论(0) 推荐(0) 编辑
摘要: 一、Spark核心概念-RDD RDD是弹性分布式数据集,一个RDD由多个partition构成,一个partition对应一个task。RDD的操作分为两种:Trasformation(把一个RDD转换为另外一个RDD),Action(通过RDD计算得带一个或一组值) 二、Spark组件 Driv 阅读全文
posted @ 2017-11-29 18:48 yuanninesuns 阅读(144) 评论(0) 推荐(0) 编辑
摘要: 博客中有两段很长的代码,我们重点关注第一段的43行和第二段的47行,我们可以看到第一段用了flatmap而第二段用了map。那这之间有什么区别呢? 第一段代码是以空格为间隔符读取统计txt文档中出现的单词数量,其中要注意的是行与行之间的分隔符也是“ ”,所以它只用一个flatmap就可以搞定,将所有 阅读全文
posted @ 2017-11-25 18:10 yuanninesuns 阅读(1649) 评论(0) 推荐(1) 编辑
该文被密码保护。 阅读全文
posted @ 2017-11-22 10:16 yuanninesuns 阅读(7) 评论(0) 推荐(0) 编辑
摘要: 决策树是什么,下面这张图就是决策树: 决策树是一种简单高效并且具有强解释性的模型,广泛应用于数据分析领域。其本质是一颗由多个判断节点组成的树。在使用模型进行预测时,根据输入参数依次在各个判断节点进行判断游走,最后到叶子节点即为预测结果。决策树可以看做一个if-then规则的集合,即如上图的由根结点到 阅读全文
posted @ 2017-11-22 10:09 yuanninesuns 阅读(397) 评论(0) 推荐(0) 编辑
摘要: 1 import scala.collection.mutable.ArrayBuffer 2 import scala.util.control.Breaks 3 4 object Exchange { 5 def delete(arg:ArrayBuffer[Int]):ArrayBuffer[Int]={ 6 val breakables = new Breaks... 阅读全文
posted @ 2017-11-17 16:17 yuanninesuns 阅读(350) 评论(0) 推荐(0) 编辑
摘要: 从网上找了一篇博客,详细讲解了Scala下划线的用法,这里做保留 博客链接 阅读全文
posted @ 2017-11-16 11:41 yuanninesuns 阅读(176) 评论(0) 推荐(0) 编辑