上一页 1 2 3 4 5 6 7 ··· 18 下一页

2022年2月16日

sqoop 的安装和使用

摘要: 一、安装概述 安装sqoop,为实现将mysql、hive数据库之间数据传送功能。 二、下载及安装 官网下载地址,http://archive.apache.org/dist/sqoop/,我选择的版本是1.4.7 将已下载的安装包上传到hadoop的根节点,并解压 [hadoop@hadoop01 阅读全文

posted @ 2022-02-16 11:13 paike123 阅读(186) 评论(0) 推荐(1) 编辑

2022年1月12日

8-推荐算法1

摘要: 一:推荐算法的构建流程 Data(数据) Features(特征) ML Algorithm(机器学习算法) Prediction Output(预测输出) 二:最经典的推荐算法 算法思想:物以类聚,人以群分 基本的协同过滤推荐算法基于以下假设: “跟你喜好相似的人喜欢的东西你也很有可能喜欢” :基 阅读全文

posted @ 2022-01-12 18:36 paike123 阅读(63) 评论(0) 推荐(0) 编辑

2022年1月7日

7-推荐系统简介及推荐系统的架构设计

摘要: 一: 推荐系统的简介 推荐系统产生背景 信息过载 & 用户需求不明确 分类⽬录(1990s):覆盖少量热门⽹站。Hao123 Yahoo 搜索引擎(2000s):通过搜索词明确需求。Google Baidu 推荐系统(2010s):不需要⽤户提供明确的需求,通过分析⽤户的历史⾏为给⽤户的兴趣进⾏建模 阅读全文

posted @ 2022-01-07 10:47 paike123 阅读(442) 评论(0) 推荐(0) 编辑

2022年1月6日

6-spark_streaming

摘要: 学习目标 说出Spark Streaming的特点 说出DStreaming的常见操作api 能够应用Spark Streaming实现实时数据处理 能够应用Spark Streaming的状态操作解决实际问题 独立实现foreachRDD向mysql数据库的数据写入 独立实现Spark Strea 阅读全文

posted @ 2022-01-06 11:59 paike123 阅读(47) 评论(0) 推荐(0) 编辑

5-spark_sql

摘要: 学习目标 知道spark_sql 的相关概念 知道DataFrame 与RDD的联系 能实现spark_sql对json的处理 实现spark_sql对数据清洗 一:spark_sql的概述 spark_sql 概念 他是处理结构化数据的一个模块,它提供的最核心的编程抽象就是DataFrame sp 阅读全文

posted @ 2022-01-06 11:12 paike123 阅读(57) 评论(0) 推荐(0) 编辑

2022年1月5日

RuntimeError: generator raised StopIteration

摘要: 开始我使用的python3.7 spark2.1 利用sparkStreaming 时出现错误( RuntimeError: generator raised StopIteration): 如下: python 代码: import os JAVA_HOME = '/usr/local/java/ 阅读全文

posted @ 2022-01-05 18:35 paike123 阅读(1374) 评论(0) 推荐(0) 编辑

2021年12月17日

积跬步,至千里;积小流,成江河。

摘要: 1:在前进得道路上,我们可以没有背景,没有光环,但是不可以没有坚定的信念和经营人脉的理念。 2:原本以为机遇是一叶扁舟在水面划过的残痕,现在看来,却成了航空母舰后面泛起的浪花! 3:马云说:赚钱只是一个技能,更多的是对自己,对企业,对社会的责任感和使命感。 阅读全文

posted @ 2021-12-17 16:51 paike123 阅读(688) 评论(0) 推荐(0) 编辑

2021年11月24日

4-spark core

摘要: 一:spark 入门 1.1 spark概述 1、什么是spark 基于内存的计算引擎,它的计算速度非常快。但是仅仅只涉及到数据的计算,并没有涉及到数据的存储。 2、为什么要学习spark MapReduce框架局限性 1,Map结果写磁盘,Reduce写HDFS,多个MR之间通过HDFS交换数据 阅读全文

posted @ 2021-11-24 17:39 paike123 阅读(55) 评论(0) 推荐(0) 编辑

2021年11月19日

3.hbase

摘要: 一:HBase简介&在Hadoop生态中的地位 1.1 什么是HBase HBase是一个分布式的、面向列的开源数据库 HBase是Google BigTable的开源实现 HBase不同于一般的关系数据库, 适合非结构化数据存储 1.2 BigTable BigTable是Google设计的分布式 阅读全文

posted @ 2021-11-19 14:32 paike123 阅读(94) 评论(0) 推荐(0) 编辑

2021年11月14日

2:hive

摘要: 1 Hive简介 1.1 什么是 Hive Hive 由 Facebook 实现并开源,是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据映射为一张数据库表,并提供 HQL(Hive SQL)查询功能,底层数据是存储在 HDFS 上。 Hive 本质: 将 SQL 语句转换为 MapRed 阅读全文

posted @ 2021-11-14 00:00 paike123 阅读(54) 评论(0) 推荐(0) 编辑

上一页 1 2 3 4 5 6 7 ··· 18 下一页

导航