摘要: pip安装: wget https://bootstrap.pypa.io/get-pip.py python get-pip.py 阅读全文
posted @ 2018-05-30 17:36 Aemnprsu_wx 阅读(76) 评论(0) 推荐(0) 编辑
摘要: RDD(Resilient Distributed Dataset) 弹性分布式数据集 不可变的分布式对象集合,每个RDD被分为多个分区,分区运行在集群中的不同节点上。 1.创建方法: 1)读取外部数据集 2)驱动器程序里分发驱动器程序中的对象集合(list/set) 调用示例: import or 阅读全文
posted @ 2018-05-30 15:38 Aemnprsu_wx 阅读(123) 评论(0) 推荐(0) 编辑
摘要: 1.升级python2.7(python2.7.3) wget http://python.org/ftp/python/2.7.3/Python-2.7.15.tar.bz2 tar -jxvf Python-2.7.15.tar.bz2 cd Python-2.7.15 ./configure 阅读全文
posted @ 2018-05-25 20:04 Aemnprsu_wx 阅读(245) 评论(0) 推荐(0) 编辑
摘要: pip install psutil psutil.pids() #显示系统全部进程 p = psutil.Process(pid) p.name() #进程名 p.exe() #进程的bin路径 p.cwd() #进程的工作目录绝对路径 p.status() #进程状态 p.create_time 阅读全文
posted @ 2018-05-21 15:35 Aemnprsu_wx 阅读(130) 评论(0) 推荐(0) 编辑
摘要: 第一步,执行下面这个脚本: mkdir -p ~/.vim/{ftdetect,indent,syntax} && for d in ftdetect indent syntax ; do curl -o ~/.vim/$d/scala.vim https://raw.githubuserconte 阅读全文
posted @ 2018-05-21 11:41 Aemnprsu_wx 阅读(341) 评论(0) 推荐(0) 编辑
摘要: 1.对1项集求支持度(计数) 2.将计数(频度)低于最小值的过滤掉,将剩下的一项集排序(降序) 3.参照排序后的一项集将初始的数据集依次排序 4.将排好序的数据集从根节点开始建树,根节点初始化为空 5.建树的过程中对经过的节点进行计数,得到节点带权重的多叉树 6.对每个节点从节点开始向祖先节点遍历, 阅读全文
posted @ 2018-04-10 18:05 Aemnprsu_wx 阅读(145) 评论(0) 推荐(0) 编辑
摘要: 中心思想: 频繁度高的项对应的子项频繁度也高,频繁度低的项对应子项频繁度也低 对子项求频繁度,选择频繁度高的子项求其所在项的频繁度。 1.求出单个属性的频繁度,过滤低于最小频繁度的项 2.求出两个项的频繁度,过滤低于最小频繁度的项 3.优化聚合,将两个项的数据分别选择第一项相同的值进行聚合,得到三项 阅读全文
posted @ 2018-04-10 17:47 Aemnprsu_wx 阅读(106) 评论(0) 推荐(0) 编辑