桌子哥 - 博客园

2020年4月3日

Python+Spark2.0+hadoop学习笔记——Python Spark MLlib逻辑斯蒂回归二分类

摘要：同上一部分的内容，在进行二分类问题时，逻辑斯蒂回归也是一种常用的分类方法。逻辑斯蒂回归使用了一个Sigmoid函数来作为核心的内容来实现分类的思想，接下里介绍在Pyspark中使用MLlib来实现逻辑斯蒂回归。第一步：导入需要的库函数 import sysfrom time import time 阅读全文

posted @ 2020-04-03 15:47 桌子哥阅读(456) 评论(0) 推荐(0) 编辑

2020年4月2日

Python+Spark2.0+hadoop学习笔记——Python Spark MLlib决策树二分类

摘要：决策树是在数据分类问题中的一种常用且经典的机器学习方法，在本例里使用决策树模型来分析StumbleUpon数据集，来预测网页是暂时的(ephemeral)还是长青的(evergreen)，并且调教参数找出最佳的参数组合，来提高预测准确度。像这类经典的二分类问题，在python中调包来做的话会非常容阅读全文

posted @ 2020-04-02 21:58 桌子哥阅读(587) 评论(0) 推荐(0) 编辑

2020年4月1日

Python+Spark2.0+hadoop学习笔记——实战之推荐引擎

摘要：推荐引擎是最常见的机器学习应用，在spark中，Spark MLlib支持ALS（Alternating Least Squares）推荐算法，是机器学习的协同过滤推荐算法。机器学习的协同过滤推荐算法用过观察所有用户给产品的评价来推断每个用户的喜好，并向用户推荐适合的多个产品，也可以把某一个产品推荐阅读全文

posted @ 2020-04-01 14:20 桌子哥阅读(513) 评论(0) 推荐(0) 编辑

2020年3月31日

Python+Spark2.0+hadoop学习笔记——Python Spark RDD

摘要： Spark的核心是RDD（弹性分布式数据集），是由AMPLab实验室提出的概念，属于一种分布式的内存系统数据集应用。Spark的主要优势来自RDD本身的特性，RDD能与其他系统兼容，可以导入外部存储系统数据，例如HDFS、HBase或者其他Hadoop数据源。 RDD的3种基本运算： 1）“转换“运阅读全文

posted @ 2020-03-31 17:32 桌子哥阅读(463) 评论(0) 推荐(0) 编辑

Python+Spark2.0+hadoop学习笔记——pyspark基础

摘要：在历经千辛万苦后，终于把所有的东西都配置好了。下面开始介绍pyspark的一些基础内容，以字数统计为例。 1）在本地运行pyspark程序读取本地文件 textFile=sc.textFile("file:/usr/local/spark/README.md") textFile.count() 阅读全文

posted @ 2020-03-31 10:47 桌子哥阅读(1541) 评论(0) 推荐(0) 编辑

2020年3月27日

Python+Spark2.0+hadoop学习笔记——Hadoop MapReduce

摘要： MapReduce是一种程序开发模式，可以使用大量服务器来并行处理。MapReduce，就是Map分配工作，Reduce将工作结果汇总整理。本次之中以WordCount为范例，计算文件中每一个英文单词出现的次数。 1）创建wordcount目录 mkdir -p ~/wordcount/input 阅读全文

posted @ 2020-03-27 18:46 桌子哥阅读(358) 评论(0) 推荐(0) 编辑

Python+Spark2.0+hadoop学习笔记——Hadoop HDFS命令

摘要：历经千辛万苦，终于把Ubuntu和Hadoop安装好了，过程很繁琐也很费时间，在这里就不展开讲述了。下面将开始介绍Hadoop HDFS命令。 HDFS命令格式如下： hadoop fs -命令 1）常用的HDFS命令： hadoop fs -mkdir 创建HDFS目录 hadoop fs -l 阅读全文

posted @ 2020-03-27 15:57 桌子哥阅读(401) 评论(0) 推荐(0) 编辑

2020年3月25日

Python+Spark2.0+hadoop学习笔记——VirtualBox虚拟机软件的安装

摘要：我在硕士期间的课题做的是狭义上的一种大数据分析，在学校里的大数据不是实际生产中的大数据量级。因此学校里的大数据分析使用单机来使用一系列的机器学习方法进行处理就绰绰有余了，但是想在大数据领域有更好更全面的发展，获得更为综合性的知识，需要学习Spark和Hadoop。接到正题，因为Hadoop最主要是阅读全文

posted @ 2020-03-25 16:30 桌子哥阅读(216) 评论(0) 推荐(0) 编辑

2020年3月23日

剑指Offer(Java版）第六十七题：给定一个数组和滑动窗口的大小，找出所有滑动窗口里数值的最大值。例如，如果输入数组{2,3,4,2,6,2,5,1}及滑动窗口的大小3，那么一共存在6个滑动窗口，他们的最大值分别为{4,4,6,6,6,5}。

摘要： /*给定一个数组和滑动窗口的大小，找出所有滑动窗口里数值的最大值。例如，如果输入数组{2,3,4,2,6,2,5,1}及滑动窗口的大小3，那么一共存在6个滑动窗口，他们的最大值分别为{4,4,6,6,6,5}；针对数组{2,3,4,2,6,2,5,1}的滑动窗口有以下6个： {[2,3,4],2, 阅读全文

posted @ 2020-03-23 21:53 桌子哥阅读(388) 评论(0) 推荐(0) 编辑

剑指Offer(Java版）第六十六题：如何得到一个数据流中的中位数？如果从数据流中读出奇数个数值，那么中位数就是所有数值排序之后位于中间的数值。如果从数据流中读出偶数个数值，那么中位数就是所有数值排序之后中间两个数的平均值。我们使用Insert()方法读取数据流，使用GetMedian()方法获取当前读取数据的中位数。

摘要： /*如何得到一个数据流中的中位数？如果从数据流中读出奇数个数值，那么中位数就是所有数值排序之后位于中间的数值。如果从数据流中读出偶数个数值，那么中位数就是所有数值排序之后中间两个数的平均值。我们使用Insert()方法读取数据流，使用GetMedian()方法获取当前读取数据的中位数。*/ impo 阅读全文

posted @ 2020-03-23 16:43 桌子哥阅读(344) 评论(0) 推荐(0) 编辑