paike123 - 博客园

sqoop 的安装和使用

摘要：一、安装概述安装sqoop，为实现将mysql、hive数据库之间数据传送功能。二、下载及安装官网下载地址，http://archive.apache.org/dist/sqoop/，我选择的版本是1.4.7 将已下载的安装包上传到hadoop的根节点，并解压 [hadoop@hadoop01 阅读全文

posted @ 2022-02-16 11:13 paike123 阅读(186) 评论(0) 推荐(1) 编辑

8-推荐算法1

摘要：一：推荐算法的构建流程 Data(数据) Features(特征) ML Algorithm(机器学习算法) Prediction Output(预测输出) 二：最经典的推荐算法算法思想：物以类聚，人以群分基本的协同过滤推荐算法基于以下假设： “跟你喜好相似的人喜欢的东西你也很有可能喜欢” ：基阅读全文

posted @ 2022-01-12 18:36 paike123 阅读(63) 评论(0) 推荐(0) 编辑

7-推荐系统简介及推荐系统的架构设计

摘要：一：推荐系统的简介推荐系统产生背景信息过载 & 用户需求不明确分类⽬录（1990s）：覆盖少量热门⽹站。Hao123 Yahoo 搜索引擎（2000s）：通过搜索词明确需求。Google Baidu 推荐系统（2010s）：不需要⽤户提供明确的需求，通过分析⽤户的历史⾏为给⽤户的兴趣进⾏建模阅读全文

posted @ 2022-01-07 10:47 paike123 阅读(442) 评论(0) 推荐(0) 编辑

6-spark_streaming

摘要：学习目标说出Spark Streaming的特点说出DStreaming的常见操作api 能够应用Spark Streaming实现实时数据处理能够应用Spark Streaming的状态操作解决实际问题独立实现foreachRDD向mysql数据库的数据写入独立实现Spark Strea 阅读全文

posted @ 2022-01-06 11:59 paike123 阅读(47) 评论(0) 推荐(0) 编辑

5-spark_sql

摘要：学习目标知道spark_sql 的相关概念知道DataFrame 与RDD的联系能实现spark_sql对json的处理实现spark_sql对数据清洗一：spark_sql的概述 spark_sql 概念他是处理结构化数据的一个模块,它提供的最核心的编程抽象就是DataFrame sp 阅读全文

posted @ 2022-01-06 11:12 paike123 阅读(57) 评论(0) 推荐(0) 编辑

RuntimeError: generator raised StopIteration

摘要：开始我使用的python3.7 spark2.1 利用sparkStreaming 时出现错误（ RuntimeError: generator raised StopIteration）：如下： python 代码： import os JAVA_HOME = '/usr/local/java/ 阅读全文

posted @ 2022-01-05 18:35 paike123 阅读(1374) 评论(0) 推荐(0) 编辑

积跬步，至千里；积小流，成江河。

摘要： 1：在前进得道路上，我们可以没有背景，没有光环，但是不可以没有坚定的信念和经营人脉的理念。 2：原本以为机遇是一叶扁舟在水面划过的残痕，现在看来，却成了航空母舰后面泛起的浪花！ 3：马云说：赚钱只是一个技能，更多的是对自己，对企业，对社会的责任感和使命感。阅读全文

posted @ 2021-12-17 16:51 paike123 阅读(688) 评论(0) 推荐(0) 编辑

4-spark core

摘要：一：spark 入门 1.1 spark概述 1、什么是spark 基于内存的计算引擎，它的计算速度非常快。但是仅仅只涉及到数据的计算，并没有涉及到数据的存储。 2、为什么要学习spark MapReduce框架局限性 1，Map结果写磁盘，Reduce写HDFS，多个MR之间通过HDFS交换数据阅读全文

posted @ 2021-11-24 17:39 paike123 阅读(55) 评论(0) 推荐(0) 编辑

3.hbase

摘要：一：HBase简介&在Hadoop生态中的地位 1.1 什么是HBase HBase是一个分布式的、面向列的开源数据库 HBase是Google BigTable的开源实现 HBase不同于一般的关系数据库, 适合非结构化数据存储 1.2 BigTable BigTable是Google设计的分布式阅读全文

posted @ 2021-11-19 14:32 paike123 阅读(94) 评论(0) 推荐(0) 编辑

2：hive

摘要： 1 Hive简介 1.1 什么是 Hive Hive 由 Facebook 实现并开源，是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据映射为一张数据库表，并提供 HQL(Hive SQL)查询功能，底层数据是存储在 HDFS 上。 Hive 本质: 将 SQL 语句转换为 MapRed 阅读全文

posted @ 2021-11-14 00:00 paike123 阅读(54) 评论(0) 推荐(0) 编辑

莫凡