摘要: 监控hdfs的一个目录,若有新文件,spark就开始处理这个文件,可以使用spark streaming textfilestream来监控该目录 阅读全文
posted @ 2018-11-04 12:50 uuhh 阅读(2397) 评论(0) 推荐(0) 编辑
摘要: 有可能是消费过慢,导致一个session周期内未完成消费。导致心跳监测报告出问题。消费了的offset未成功提交。 有可能是消费失败,trasactionID未成功保存。导致消费到一半回退了。 阅读全文
posted @ 2018-11-04 10:55 uuhh 阅读(882) 评论(0) 推荐(0) 编辑
摘要: 推荐系统代表用户的偏好,目的是建议 购买或检查的物品。它们已经成为了 电子商务和信息访问,提供建议 有效地删除大的信息空间,这样用户就可以被定向到那些 最能满足他们需求和偏好的物品。各种各样的技术 被提议执行推荐,包括基于内容的, 协作、知识和其他技术。为了提高性能, 这些方法有时被混合在混合推荐中 阅读全文
posted @ 2018-10-11 09:10 uuhh 阅读(169) 评论(0) 推荐(0) 编辑
摘要: https://www.cnblogs.com/kevingrace/p/5919021.html 阅读全文
posted @ 2018-09-21 11:50 uuhh 阅读(337) 评论(0) 推荐(0) 编辑
摘要: 在spark的RDD中的transform操作算子中,总会调用sc.clean操作。当Scala构造一个闭包时,它确定闭包将使用哪些外部变量,并将它们的引用存储在闭包对象中。这允许封闭工作正常,即使它从不同的范围被调用时也是如此。 Scala-2.10-x以下的版本有时在捕捉太多外部变量方面犯了错误 阅读全文
posted @ 2018-09-18 20:47 uuhh 阅读(796) 评论(0) 推荐(0) 编辑
摘要: http://dblab.xmu.edu.cn/blog/spark/ https://www.cnblogs.com/smail-bao/p/7794636.html 阅读全文
posted @ 2018-09-17 20:37 uuhh 阅读(165) 评论(0) 推荐(0) 编辑
摘要: 推荐序一推荐序二前言第一篇 查询优化技术 第1章 数据管理系统的查询优化 1.1 数据库调优 1.2 查询优化技术 1.2.1 查询重用 1.2.2 查询重写规则 1.2.3 查询算法优化 1.2.4 并行查询优化 1.2.5 分布式查询优化 1.2.6 其他优化 1.3 本章小结 第2章 逻辑查询 阅读全文
posted @ 2018-09-11 16:58 uuhh 阅读(203) 评论(0) 推荐(0) 编辑
摘要: 【IT168 技术】这是Spark核心团队成员辛湜(Reynold Xin)公开了他整理的一份数据库学习资料列表,Hacker News上引起了不少讨论。其中的评述文字也很有价值,简要编译如下。大家对这个列表如有补充,请评论。 基础与算法 The Five-Minute Rule Ten Years 阅读全文
posted @ 2018-09-05 09:39 uuhh 阅读(332) 评论(0) 推荐(0) 编辑
摘要: //提供的int排序的统一方法 val intSort = msort((x:Int,y:Int)=>x<y) _ //逆序 val reverseIntSort = msort((x:Int,y:Int)=>x>y) _ 阅读全文
posted @ 2018-09-02 15:37 uuhh 阅读(132) 评论(0) 推荐(0) 编辑
摘要: //插入排序 def isort(xs:List[Int]):List[Int]= if(xs.isEmpty)Nil else insert(xs.head,isort(xs.tail)) def insert(x:Int,xs:List[Int]):List[Int]= if(xs.isEmpty || xList() case x::xsl=>insert... 阅读全文
posted @ 2018-09-02 13:30 uuhh 阅读(254) 评论(0) 推荐(0) 编辑
摘要: http://www.scalatest.org/ code.google.com/p/scalacheck 阅读全文
posted @ 2018-09-01 20:02 uuhh 阅读(95) 评论(0) 推荐(0) 编辑
摘要: def gcdLoop(x:Long,y:Long):Long={ var a=x var b=y while(a!=0){ val temp=a a=b%a b=temp } b } 阅读全文
posted @ 2018-08-30 13:20 uuhh 阅读(111) 评论(0) 推荐(0) 编辑
摘要: #把30张图片存成矩阵 import numpy as np,os import PIL.Image as pim#处理图片的工具库 import pickle as pic#矩阵的序列化和反序列化 class imagew: def imageToArray(self,dir): image_list=[]; sdir=os.listdir(dir) ... 阅读全文
posted @ 2018-08-28 21:28 uuhh 阅读(296) 评论(0) 推荐(0) 编辑
摘要: Text jar包导成import com.sun.jersey.core.impl.provider.entity.XMLJAXBElementProvider.Text; 解决:应该导入import org.apache.hadoop.io.Text; 阅读全文
posted @ 2018-08-26 19:54 uuhh 阅读(766) 评论(0) 推荐(0) 编辑
摘要: 在cloudera库里给user表添加数据,然后使用账户:admin,密码:admin登陆: sql是:update USERS set password_hash='ffa2eb4251b38e069e968890cb2bcdb6229982322f5ed2470bf96231fe4c39c8', 阅读全文
posted @ 2018-08-16 12:24 uuhh 阅读(1587) 评论(0) 推荐(0) 编辑
摘要: ERROR 2002 (HY000): Can't connect to local MySQL server through socket '/var/lib/mysql/mysql.sock' (111) mysql每次启动都会生成一个mysql.sock文件。删除掉mysql.sock文件即可 阅读全文
posted @ 2018-08-16 10:12 uuhh 阅读(269) 评论(0) 推荐(0) 编辑
摘要: 解决:将其他节点/etc/yum.repo.d下的CentOS-Base.repo覆盖原来的Centos-Base.repo之后,恢复下载[root@node04 yum-cli]# yum install -y chrony Loaded plugins: fastestmirror, refresh-packagekit, security Loading mirror speeds fro... 阅读全文
posted @ 2018-08-15 19:51 uuhh 阅读(822) 评论(0) 推荐(0) 编辑
摘要: 垃圾收集时由对象上的垃圾收集器调用确定没有对该对象的更多引用。子类重写{@code finalize}方法进行处理系统资源或执行其他清理。<P>{@code finalize}的一般合同是它被调用if和何时Java <font size =“ - 2”> <sup> TM </ sup> </ fo 阅读全文
posted @ 2018-08-14 20:13 uuhh 阅读(405) 评论(0) 推荐(0) 编辑
摘要: -XX:SurvivorRatio=4 控制台输出: [GC [PSYoungGen: 6912K->1640K(8576K)] 6912K->5992K(18816K), 0.0133114 secs] [Times: user=0.00 sys=0.00, real=0.06 secs] [GC 阅读全文
posted @ 2018-08-14 18:41 uuhh 阅读(638) 评论(0) 推荐(0) 编辑
摘要: 常用命令: jps jstat 虚拟机统计信息监视工具jinfo java配置信息工具jmap java内存映像工具jhat 虚拟机堆转储快照分析工具jstatk 堆栈跟踪工具 jdk可视化工具jconsole:java监视和管理控制visualVM:多合一故障处理工具 阅读全文
posted @ 2018-08-14 12:28 uuhh 阅读(976) 评论(0) 推荐(0) 编辑
摘要: 清理cookie之后可以正常访问 阅读全文
posted @ 2018-08-13 11:58 uuhh 阅读(512) 评论(0) 推荐(0) 编辑
摘要: Serialize the key, value to intermediate storage. * When this method returns, kvindex must refer to sufficient unused * storage to store one METADATA. 阅读全文
posted @ 2018-08-12 21:15 uuhh 阅读(266) 评论(0) 推荐(0) 编辑
摘要: 一个int缓冲区。 该类定义了四类操作 int缓冲区: 绝对和相对{@link #get()get}和 {@link #put(int)put}读写方法 单个; 相对{@link #get(int [])批量获取} 从该缓冲区传输连续的int序列的方法 成阵;和 相对{@link #put(int [])批量放置} 从一个转移连... 阅读全文
posted @ 2018-08-12 20:00 uuhh 阅读(964) 评论(0) 推荐(0) 编辑
摘要: 24h =86400000ms 阅读全文
posted @ 2018-08-10 14:19 uuhh 阅读(160) 评论(0) 推荐(0) 编辑
摘要: a1.sources = r1a1.sinks = k1a1.channels = c1 a1.sources.r1.type = execa1.sources.r1.command = tail -f /sinkslog/1.txt a1.sinks.k1.type=hdfsa1.sinks.k1 阅读全文
posted @ 2018-08-09 17:04 uuhh 阅读(376) 评论(0) 推荐(0) 编辑
摘要: Warning The problem with ExecSource and other asynchronous sources is that the source can not guarantee that if there is a failure to put the event in 阅读全文
posted @ 2018-08-09 16:26 uuhh 阅读(489) 评论(0) 推荐(0) 编辑
摘要: /*Basic representation of a data object in Flume. Provides access to data as it flows through the system. Flume中数据对象的基本表示。 提供对数据流经系统的访问 */public inter 阅读全文
posted @ 2018-08-09 13:32 uuhh 阅读(637) 评论(0) 推荐(0) 编辑
摘要: http://flume.apache.org/ 安装 1、上传 2、解压 3、修改conf/flume-env.sh 文件中的JDK目录 注意:JAVA_OPTS 配置 如果我们传输文件过大 报内存溢出时 需要修改这个配置项 4、验证安装是否成功 ./flume-ng version 5、配置环境变量 export FLUME_HOME=/home/apache-flume-1.6... 阅读全文
posted @ 2018-08-09 12:25 uuhh 阅读(510) 评论(0) 推荐(0) 编辑
摘要: a1.sources = r1 a1.sinks = k1 a1.channels = c1 # Describe/configure the source a1.sources.r1.type = netcat a1.sources.r1.bind = localhost a1.sources.r1.port = 44444 # Describe the sink a1.sinks.k1.... 阅读全文
posted @ 2018-08-09 11:07 uuhh 阅读(427) 评论(0) 推荐(0) 编辑
摘要: netstat -tunlp 产看端口开启情况包括进程 fdsik -l 查看硬盘信息. telnet 命令行退出 ctrl+] ls | tee 1.txt tee重定向到一个文件 centos7自带jdk所在目录/usr/lib/jvm/java-1.7.0-openjdk-1.7.0.191- 阅读全文
posted @ 2018-08-09 08:27 uuhh 阅读(218) 评论(0) 推荐(0) 编辑
摘要: 鲁玉成云笔记 不积跬步,无以至千里 首页 新随笔 管理 随笔 - 66 文章 - 0 评论 - 20 鲁玉成云笔记 不积跬步,无以至千里 鲁玉成云笔记 不积跬步,无以至千里 首页 新随笔 管理 随笔 - 66 文章 - 0 评论 - 20 首页 新随笔 管理 随笔 - 66 文章 - 0 评论 - 阅读全文
posted @ 2018-08-08 16:36 uuhh 阅读(229) 评论(0) 推荐(0) 编辑
摘要: #user nobody;worker_processes 1; #error_log logs/error.log;#error_log logs/error.log notice;#error_log logs/error.log info; #pid logs/nginx.pid; event 阅读全文
posted @ 2018-08-08 11:04 uuhh 阅读(139) 评论(0) 推荐(0) 编辑
摘要: 1、hive的DML操作 在执行update、delete操作的时候需要开启事务的支持 2、hive事务的开启需要以下的依赖的条件 只支持ORCFile文件格式 默认关闭,需要手动开启 表必须支持分桶 0.14开始支持insert,delete,update操作 必须加入配置 3、需要添加的配置 hive.support.concurrency true h... 阅读全文
posted @ 2018-08-08 10:59 uuhh 阅读(1863) 评论(0) 推荐(0) 编辑
摘要: hive—high Avaliablehive的搭建方式有三种,分别是1、Local/Embedded Metastore Database (Derby)2、Remote Metastore Database3、Remote Metastore Server一般情况下,我们在学习的时候直接使用hi 阅读全文
posted @ 2018-08-08 10:53 uuhh 阅读(239) 评论(0) 推荐(0) 编辑
摘要: Hivehive三种方式区别和搭建Hive中metastore(元数据存储)的三种方式:a)内嵌Derby方式b)Local方式c)Remote方式1.本地模式(derby)这种方式是最简单的存储方式,只需要在hive-site.xml做如下配置便可<?xml version="1.0"?> <?x 阅读全文
posted @ 2018-08-08 10:40 uuhh 阅读(137) 评论(0) 推荐(0) 编辑
摘要: 伪分布式建立(已经正确实施过): 配置export JAVA_HOME 配置export HADOOP_HOME/bin……sbin 修改hadoop-env.sh的JAVA_HOME,改成绝对路径 修改mapred-env.sh的JAVA_HOME,改成绝对路径 修改yarn-env.sh的JAV 阅读全文
posted @ 2018-08-08 10:26 uuhh 阅读(152) 评论(0) 推荐(0) 编辑
摘要: 节点之间服务器同步:1. 修改服务器主机时间date -s '2018-08-07 18:56:00'2.将修改后的时间同步到硬件clock -whwclock --systohc3.在时间服务器节点/etc/ntp.conf添加restrict 192.168.17.0 mask 255.255. 阅读全文
posted @ 2018-08-07 20:43 uuhh 阅读(443) 评论(0) 推荐(0) 编辑
摘要: eclipse下maven管理程序,使用junit测试hbase创建表,但是程序运行不起来。原因是缺少hadoop系列依赖文件,原因是集群时间未同步,同步时间后可以正常创建了。 阅读全文
posted @ 2018-08-07 15:04 uuhh 阅读(345) 评论(0) 推荐(0) 编辑
摘要: eclipse中maven配置: maven编码设置:项目中添加编码配置 1.先下载apache-maven然后配置win环境变量,2.在C:\Users\Administrator\.m2\settings.xml添加 E:/maven/repository alimaven aliyun maven http://maven.ali... 阅读全文
posted @ 2018-08-07 13:33 uuhh 阅读(126) 评论(0) 推荐(0) 编辑