上一页 1 2 3 4 5 6 7 8 9 10 ··· 19 下一页
摘要: 推荐系统的目的 1、信息过载 2、推荐系统 推荐系统是信息过载所采用的措施,面对海量的数据信息,从中快速推荐出符合用户特点的物品。解决一些人的“选择恐惧症”;面向没有明确需求的人。 解决如何从大量信息中找到自己感兴趣的信息。 剞劂如何让自己生产的信息中脱颖而出,收到大众的喜爱。 3、让用户更快更好的 阅读全文
posted @ 2020-03-31 17:11 Xiaohu_BigData 阅读(412) 评论(0) 推荐(0) 编辑
摘要: 学了有一段时间的大数据了,学习新的组件,大部分安装可以分为三步:上传解压,配置文件,启动。 分享一下我的kafka安装包: 链接:https://pan.baidu.com/s/1fbydwZwcYyi2saYozit0nA 提取码:w4oc 1、上传解压 2、进入到 /usr/local/soft 阅读全文
posted @ 2020-03-13 13:46 Xiaohu_BigData 阅读(1396) 评论(0) 推荐(0) 编辑
摘要: 一、简介 1.1 概述 Kafka是最初由Linkedin公司开发,是一个分布式、分区的、多副本的、多订阅者,基于zookeeper协调的分布式日志系统(也可以当做MQ系统),常见可以用于web/nginx日志、访问日志,消息服务等等,Linkedin于2010年贡献给了Apache基金会并成为顶级 阅读全文
posted @ 2020-03-13 13:16 Xiaohu_BigData 阅读(297) 评论(0) 推荐(0) 编辑
摘要: 调节Executor堆外内存 概述: Spark底层shuffle的传输方式是使用netty传输,netty在进行网络传输的过程会申请堆外 内存(netty是零拷贝),所以使用了堆外内存。 什么时候需要调节Executor的堆外内存大小? shuffle file cannot find (DAGS 阅读全文
posted @ 2020-02-28 13:58 Xiaohu_BigData 阅读(235) 评论(0) 推荐(0) 编辑
摘要: Application任务执行流程: 在Spark Application提交后,Driver会根据action算子划分成一个个的job,然后对每一 个job划分成一个个的stage,stage内部实际上是由一系列并行计算的task组成的,然后 以TaskSet的形式提交给你TaskSchedule 阅读全文
posted @ 2020-02-28 13:18 Xiaohu_BigData 阅读(266) 评论(0) 推荐(0) 编辑
摘要: 一、对多次使用的RDD进行持久化 如何选择一种最合适的持久化策略? 默认情况下,性能最高的当然是MEMORY_ONLY,但前提是你的内存必须足够足够大, 可以绰绰有余地存放下整个RDD的所有数据。因为不进行序列化与反序列化操作,就避 免了这部分的性能开销;对这个RDD的后续算子操作,都是基于纯内存中 阅读全文
posted @ 2020-02-28 13:10 Xiaohu_BigData 阅读(162) 评论(0) 推荐(0) 编辑
摘要: Spark On Hive 配置步骤在Spark客户端安装包下的conf目录中创建文件hive-site.xml,配置hive的metastore路径 <configuration> <property> <name>hive.metastore.uris</name> <value>thrift: 阅读全文
posted @ 2020-02-23 20:15 Xiaohu_BigData 阅读(411) 评论(0) 推荐(0) 编辑
摘要: Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/SparkConf at StreamingT$.main(StreamingT.scala:8) at StreamingT.main(Strea 阅读全文
posted @ 2020-02-23 20:10 Xiaohu_BigData 阅读(3588) 评论(0) 推荐(0) 编辑
摘要: 在学习过程中,过了几天再启动虚拟机,启动hadoop后再启动别的框架会报错: Exception in thread "main" java.lang.RuntimeException: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop. 阅读全文
posted @ 2020-02-23 12:16 Xiaohu_BigData 阅读(590) 评论(0) 推荐(0) 编辑
摘要: 报错信息: java.lang.NoClassDefFoundError: org/apache/spark/api/java/function/Function at java.lang.Class.getDeclaredMethods0(Native Method) at java.lang.C 阅读全文
posted @ 2020-02-20 22:06 Xiaohu_BigData 阅读(504) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 9 10 ··· 19 下一页