随笔分类 -  大数据相关

自定义flume的hbase sink 的序列化程序
摘要:package com.hello.hbase; import java.nio.charset.Charset; import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.Date; import java.util.List; import java.util.Locale; import ... 阅读全文

posted @ 2018-07-05 11:09 NothingLZ 阅读(385) 评论(0) 推荐(0)

pyspark数据准备
摘要:鸢尾花数据集 转换成libsvm格式代码 libsvm格式的鸢尾花数据集 pyspark读取libsvm格式数据并转换 >>> examples.take(2) [Stage 26:> (0 + 1) / 1] [LabeledPoint(0.0, (4,[0,1,2,3],[5.1,3.5,1.4 阅读全文

posted @ 2018-06-26 09:54 NothingLZ 阅读(350) 评论(0) 推荐(0)

利用pipeline批量插入数据到redis
摘要:在推荐系统中,推荐候选集格式一般是,itemid itemid_list。要把itemid作为key,推荐列表作为value批量插入到redis。 比如文件cf.data为: 在item前加cf,是为了标注此推荐候选集是有CF算法计算得到的。 这时候会报错,那是字符编码格式问题,我的系统环境是LIN 阅读全文

posted @ 2018-05-31 10:18 NothingLZ 阅读(298) 评论(0) 推荐(0)

PySpark理解wordcount.py
摘要:在本文中, 我们借由深入剖析wordcount.py, 来揭开Spark内部各种概念的面纱。我们再次回顾wordcount.py代码来回答如下问题 对于大多数语言的Hello Word示例,都有main()函数, wordcount.py的main函数,或者说调用Spark的main() 在哪里 数 阅读全文

posted @ 2018-05-27 20:36 NothingLZ 阅读(2149) 评论(0) 推荐(0)

reduceByKey和groupByKey区别与用法
摘要:在spark中,我们知道一切的操作都是基于RDD的。在使用中,RDD有一种非常特殊也是非常实用的format——pair RDD,即RDD的每一行是(key, value)的格式。这种格式很像Python的字典类型,便于针对key进行一些处理。 针对pair RDD这样的特殊形式,spark中定义了 阅读全文

posted @ 2018-04-18 20:35 NothingLZ 阅读(1828) 评论(0) 推荐(0)

hdfs1.0和2.0复习
摘要:1、Namenode元数据两种映射:(1)文件名 -> block数据块的映射(2)block数据块 -> datanode节点地址的映射细节:(1)是持久化到NN的磁盘的(fsimage<-edits log<-NN内存变化),(2)通过心跳组织起来的(DN->NN) 2、就目前我们的环境(1个m 阅读全文

posted @ 2018-04-17 09:22 NothingLZ 阅读(824) 评论(0) 推荐(0)

逻辑回归原理(python代码实现)
摘要:Logistic Regression Classifier逻辑回归主要思想就是用最大似然概率方法构建出方程,为最大化方程,利用牛顿梯度上升求解方程参数。 优点:计算代价不高,易于理解和实现。 缺点:容易欠拟合,分类精度可能不高。 使用数据类型:数值型和标称型数据。 介绍逻辑回归之前,我们先看一问题 阅读全文

posted @ 2018-03-19 21:48 NothingLZ 阅读(23100) 评论(0) 推荐(2)

决策树原理实例(python代码实现)
摘要:决策数(Decision Tree)在机器学习中也是比较常见的一种算法,属于监督学习中的一种。看字面意思应该也比较容易理解,相比其他算法比如支持向量机(SVM)或神经网络,似乎决策树感觉“亲切”许多。 优点:计算复杂度不高,输出结果易于理解,对中间值的缺失值不敏感,可以处理不相关特征数据。 缺点:可 阅读全文

posted @ 2018-03-19 21:30 NothingLZ 阅读(34114) 评论(2) 推荐(2)

TF-IDF与余弦相似性的应用(三):自动摘要
摘要:有时候,很简单的数学方法,就可以完成很复杂的任务。 这个系列的前两部分就是很好的例子。仅仅依靠统计词频,就能找出关键词和相似文章。虽然它们算不上效果最好的方法,但肯定是最简便易行的方法。 今天,依然继续这个主题。讨论如何通过词频,对文章进行自动摘要(Automatic summarization)。 阅读全文

posted @ 2018-03-03 10:51 NothingLZ 阅读(241) 评论(0) 推荐(0)

flume简介
摘要:组件介绍: 代理 Flume Agent agent source agent channel 监控网络端口使用 启动命令:flume-ng agent -n a1 -c $FLUME_HOME/conf -f $FLUME_HOME/conf/example.conf -Dflume.root.l 阅读全文

posted @ 2018-03-02 00:00 NothingLZ 阅读(170) 评论(0) 推荐(0)

streaming简介
摘要:mapreduce和hdfs采用java实现,默认提供java编程接口 streaming框架允许任何程序语言实现的程序在hadoop mapreduce中使用 streaming方便已有的程序向hadoop平台移植 streaming原理图 streaming局限 streaming默认只能处理文 阅读全文

posted @ 2018-02-21 22:52 NothingLZ 阅读(701) 评论(0) 推荐(0)

HBase启动后RegionServer自动挂原因及解决办法
摘要:zookeeper在同步和管理集群时依赖节点系统时间,每隔一定周期zookeeper master会监测所有节点的连接状态。所以解决办法就是利用ntp对集群局域网进行时间同步。 CentOS设置系统时间与网络时间同步 Linux的时间分为System Clock(系统时间)和Real Time Cl 阅读全文

posted @ 2018-02-08 20:41 NothingLZ 阅读(437) 评论(0) 推荐(0)

导航