Suckseedeva - 博客园

公告

2016年6月2日

摘要： 1. 概括统计 summary statistics MLlib支持RDD[Vector]列式的概括统计，它通过调用 Statistics 的 colStats方法实现。 colStats返回一个 MultivariateStatisticalSummary 对象，这个对象包含列式的最大值、最小值、阅读全文

posted @ 2016-06-02 19:10 Suckseedeva 阅读(2452) 评论(0) 推荐(1)

2016年5月30日

MySQL 语句遇到关键字

摘要： 1. 拿关键字做列名查询字段等时需要加 ``（1上面那个）包裹起来。不然会报解析字符串错误。 2. 在指定位置添加字段删除字段: 3. bit或binary或tinyint字段转化成 int 4. 阅读全文

posted @ 2016-05-30 15:11 Suckseedeva 阅读(562) 评论(0) 推荐(0)

2016年5月28日

Spark MLib 数据类型

摘要： 1. MLlib Apache Spark's scalable machine learning library, with APIs in Java, Scala and Python. 2. 数据类型本地向量，标注点，本地矩阵，分布式矩阵 3. 本地向量 Local Vector 稠密向量阅读全文

posted @ 2016-05-28 17:51 Suckseedeva 阅读(969) 评论(0) 推荐(0)

Python % 格式化字符串

摘要：格式字符串 python 使用一个字符串作为模板模板中含有格式符，为真实值预留位置使用tuple或者字典来传递值模板和值之间，用 % 来表示格式化操作例子： 1） tuple 传值 2）字典传值字典传值时，我们对格式串进行了命名。所以可以接收字典的value(相同名字的key) 格式符阅读全文

posted @ 2016-05-28 11:11 Suckseedeva 阅读(362) 评论(0) 推荐(0)

2016年5月26日

逻辑回归模型

摘要： 1. 逻辑回归是一种监督式的学习算法。［监督式学习算法有两组变量：预测变量(自变量x)和目标变量(因变量y)，通过这些变量(x,y)，搭建一个可以由已知的预测变量值x，得到对应的目标变量值y。重复训练这个模型，直到能够在训练数据集上达到预定的准确度。］ 2. 逻辑回归是一个分类算法。利用已知阅读全文

posted @ 2016-05-26 23:55 Suckseedeva 阅读(556) 评论(0) 推荐(0)

python 常用内置函数

摘要：编译，执行 repr(me) # 返回对象的字符串表达 compile("print('Hello')",'test.py','exec') # 编译字符串成为code对象 eval("1 + 1") # 解释字符串表达式。参数也可以是compile()返回的code对象 exec("print(' 阅读全文

posted @ 2016-05-26 22:24 Suckseedeva 阅读(266) 评论(0) 推荐(0)

2016年5月25日

HIVE: collect_set(输出未包含在groupby的字段);

摘要：今天帮同事测试，发现代码里有个好用的hive 函数： 1. collect_set 可以输出未包含在groupby里的字段。条件是，这个字段值对应于主键是唯一的。 2. concat_ws 和collect_set 一起可以把group by的结果集，合并成一条记录。对表合并成一条阅读全文

posted @ 2016-05-25 10:56 Suckseedeva 阅读(4397) 评论(0) 推荐(0)

2016年5月19日

HDFS文件和HIVE表的一些操作

摘要： 1. hadoop fs -ls 可以查看HDFS文件后面不加目录参数的话，默认当前用户的目录。/user/当前用户也可以加目录，显示指定目录的HDFS文件。 2. hadoop fs -mkdir 可以创建文件夹 hadoop fs –rmr 可以删除文件夹/文件 3. hadoop fs - 阅读全文

posted @ 2016-05-19 13:43 Suckseedeva 阅读(2898) 评论(0) 推荐(0)

Linux 跨机器文件传输

摘要：不同的Linux之间copy文件通常有4种方法： ftp samba服务 sftp scp 我使用了scp在同网段的内网 ip之间传输，非常快。所以先介绍下scp的方法： scp 是 ssh管道下的cp命令。 1）把当前一个文件copy到远程服务器上： scp /home/a.txt root@19 阅读全文

posted @ 2016-05-19 10:37 Suckseedeva 阅读(448) 评论(0) 推荐(0)

2016年5月16日

Spark 常用参数及调优

摘要： spark streaming 调优的几个角度：高效地利用集群资源减少批数据的处理时间设置正确的批容量（size），使数据的处理速度能够赶上数据的接收速度内存调优设置正确的批容量（size），使数据的处理速度能够赶上数据的接收速度 Spark SQL 可以通过调用 sqlContext.ca 阅读全文

posted @ 2016-05-16 19:45 Suckseedeva 阅读(457) 评论(0) 推荐(0)

见贤思小齐，知足常乐呵

公告