大数据相关 - 随笔分类 - NothingLZ

自定义flume的hbase sink 的序列化程序

摘要：package com.hello.hbase; import java.nio.charset.Charset; import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.Date; import java.util.List; import java.util.Locale; import ... 阅读全文

posted @ 2018-07-05 11:09 NothingLZ 阅读(392) 评论(0) 推荐(0)

pyspark数据准备

摘要：鸢尾花数据集转换成libsvm格式代码 libsvm格式的鸢尾花数据集 pyspark读取libsvm格式数据并转换 >>> examples.take(2)　[Stage 26:> (0 + 1) / 1] [LabeledPoint(0.0, (4,[0,1,2,3],[5.1,3.5,1.4 阅读全文

posted @ 2018-06-26 09:54 NothingLZ 阅读(357) 评论(0) 推荐(0)

利用pipeline批量插入数据到redis

摘要：在推荐系统中，推荐候选集格式一般是，itemid itemid_list。要把itemid作为key，推荐列表作为value批量插入到redis。比如文件cf.data为：在item前加cf，是为了标注此推荐候选集是有CF算法计算得到的。这时候会报错，那是字符编码格式问题，我的系统环境是LIN 阅读全文

posted @ 2018-05-31 10:18 NothingLZ 阅读(310) 评论(0) 推荐(0)

PySpark理解wordcount.py

摘要：在本文中，我们借由深入剖析wordcount.py, 来揭开Spark内部各种概念的面纱。我们再次回顾wordcount.py代码来回答如下问题对于大多数语言的Hello Word示例，都有main()函数， wordcount.py的main函数，或者说调用Spark的main() 在哪里数阅读全文

posted @ 2018-05-27 20:36 NothingLZ 阅读(2181) 评论(0) 推荐(0)

reduceByKey和groupByKey区别与用法

摘要：在spark中，我们知道一切的操作都是基于RDD的。在使用中，RDD有一种非常特殊也是非常实用的format——pair RDD，即RDD的每一行是（key, value）的格式。这种格式很像Python的字典类型，便于针对key进行一些处理。针对pair RDD这样的特殊形式，spark中定义了阅读全文

posted @ 2018-04-18 20:35 NothingLZ 阅读(1845) 评论(0) 推荐(0)

hdfs1.0和2.0复习

摘要：1、Namenode元数据两种映射：（1）文件名 -> block数据块的映射（2）block数据块 -> datanode节点地址的映射细节：（1）是持久化到NN的磁盘的（fsimage<-edits log<-NN内存变化），（2）通过心跳组织起来的（DN->NN） 2、就目前我们的环境（1个m 阅读全文

posted @ 2018-04-17 09:22 NothingLZ 阅读(831) 评论(0) 推荐(0)

逻辑回归原理（python代码实现）

摘要：Logistic Regression Classifier逻辑回归主要思想就是用最大似然概率方法构建出方程，为最大化方程，利用牛顿梯度上升求解方程参数。优点：计算代价不高，易于理解和实现。缺点：容易欠拟合，分类精度可能不高。使用数据类型：数值型和标称型数据。介绍逻辑回归之前，我们先看一问题阅读全文

posted @ 2018-03-19 21:48 NothingLZ 阅读(23205) 评论(0) 推荐(2)

决策树原理实例（python代码实现）

摘要：决策数(Decision Tree)在机器学习中也是比较常见的一种算法，属于监督学习中的一种。看字面意思应该也比较容易理解，相比其他算法比如支持向量机(SVM)或神经网络，似乎决策树感觉“亲切”许多。优点：计算复杂度不高，输出结果易于理解，对中间值的缺失值不敏感，可以处理不相关特征数据。缺点：可阅读全文

posted @ 2018-03-19 21:30 NothingLZ 阅读(34143) 评论(2) 推荐(2)

TF-IDF与余弦相似性的应用（三）：自动摘要

摘要：有时候，很简单的数学方法，就可以完成很复杂的任务。这个系列的前两部分就是很好的例子。仅仅依靠统计词频，就能找出关键词和相似文章。虽然它们算不上效果最好的方法，但肯定是最简便易行的方法。今天，依然继续这个主题。讨论如何通过词频，对文章进行自动摘要（Automatic summarization）。阅读全文

posted @ 2018-03-03 10:51 NothingLZ 阅读(249) 评论(0) 推荐(0)

flume简介

摘要：组件介绍：代理 Flume Agent agent source agent channel 监控网络端口使用启动命令：flume-ng agent -n a1 -c $FLUME_HOME/conf -f $FLUME_HOME/conf/example.conf -Dflume.root.l 阅读全文

posted @ 2018-03-02 00:00 NothingLZ 阅读(183) 评论(0) 推荐(0)

streaming简介

摘要：mapreduce和hdfs采用java实现，默认提供java编程接口 streaming框架允许任何程序语言实现的程序在hadoop mapreduce中使用 streaming方便已有的程序向hadoop平台移植 streaming原理图 streaming局限 streaming默认只能处理文阅读全文

posted @ 2018-02-21 22:52 NothingLZ 阅读(721) 评论(0) 推荐(0)

HBase启动后RegionServer自动挂原因及解决办法

摘要：zookeeper在同步和管理集群时依赖节点系统时间，每隔一定周期zookeeper master会监测所有节点的连接状态。所以解决办法就是利用ntp对集群局域网进行时间同步。 CentOS设置系统时间与网络时间同步 Linux的时间分为System Clock（系统时间）和Real Time Cl 阅读全文

posted @ 2018-02-08 20:41 NothingLZ 阅读(447) 评论(0) 推荐(0)

bigbee

随笔分类 - 大数据相关