随笔分类 -  大数据与推荐算法

pyspark 集成hive
摘要:1:PySpark类库和标准Spark框架的简单对比 2: 安装 将/spark/python/pyspark 复制到 python 的安装包中 或者 pip install pyspark (注意版本对应关系) 3:spark on hive 本质: 将hive的执行引擎替换为spark 的执行引 阅读全文

posted @ 2022-07-17 12:26 paike123 阅读(592) 评论(0) 推荐(1) 编辑

-bash: /root/.rvm/scripts/rvm: No such file or directory
摘要:通过一下方式安装的rvm (rvm的安装参考 https://blog.csdn.net/u013938578/article/details/118221111) curl -L get.rvm.io | bash -s stable 默认是在 /usr/local/rvm下,但用ssh做免密登录 阅读全文

posted @ 2022-05-24 18:27 paike123 阅读(206) 评论(0) 推荐(0) 编辑

Word2Vec 简介
摘要:word2Vec 能做什么: 计算相似度: 寻找相似词 或者 相似文章的相似度 文本生成,机器编译等 定义: word2Vec 是谷歌2013年提出来的NLP工具,它的特点就是可以将单词转化为向量表示,这样就可以通过向量与向量之间的距离来度量它们之间的相似度,从而发现他们之间存在的潜在关系。 虽然现 阅读全文

posted @ 2022-05-02 11:08 paike123 阅读(721) 评论(0) 推荐(0) 编辑

jieba分词库——基于 TextRank 算法的关键词抽取
摘要:基于 TextRank 算法的关键词抽取 TextRank算法 TD-IDF是基于词频的算法,而TextRank是基于图 形的算法。 TextRank是受到PageRank算法的启发。 PageRank算法 PageRank主要用于对在线搜索结果中的网页进行排序。 PageRank对于每个网页页面都 阅读全文

posted @ 2022-03-09 15:06 paike123 阅读(796) 评论(0) 推荐(0) 编辑

文章画像得计算
摘要:一: 计算TF-IDF 值 1: 初始化spark环境 # 初始化spark信息 import os import sys BASE_DIR= os.path.dirname(os.path.dirname("/bigdata/projects/toutiao_projects/reco_sys/o 阅读全文

posted @ 2022-02-28 17:37 paike123 阅读(59) 评论(0) 推荐(0) 编辑

FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. Cannot validate serde: org.apache.hive.hcatalog.data.JsonSerDe
摘要:用下列sql语句在hive 中创建表, create table user_action( actionTime STRING comment "user actions time", readTime STRING comment "user reading time", channelId IN 阅读全文

posted @ 2022-02-25 16:10 paike123 阅读(386) 评论(0) 推荐(0) 编辑

pyspark.sql.utils.AnalysisException: u"Table or view not found:`ods_fpos`.`sales_order_item_promotion`
摘要:解决 pyspark.sql.utils.AnalysisException: u"Table or view not found:`ods_fpos`.`sales_order_item_promotion` 第一步:启动 hive的metastore元数据服务 hive --service me 阅读全文

posted @ 2022-02-21 15:26 paike123 阅读(682) 评论(0) 推荐(0) 编辑

flume
摘要:一、Flume安装部署 1.1、安装地址 1) Flume 官网地址 http://flume.apache.org/ 2)文档查看地址 http://flume.apache.org/FlumeUserGuide.html 3)下载地址 http://archive.apache.org/dist 阅读全文

posted @ 2022-02-17 11:06 paike123 阅读(47) 评论(0) 推荐(0) 编辑

sqoop 的安装和使用
摘要:一、安装概述 安装sqoop,为实现将mysql、hive数据库之间数据传送功能。 二、下载及安装 官网下载地址,http://archive.apache.org/dist/sqoop/,我选择的版本是1.4.7 将已下载的安装包上传到hadoop的根节点,并解压 [hadoop@hadoop01 阅读全文

posted @ 2022-02-16 11:13 paike123 阅读(212) 评论(0) 推荐(1) 编辑

8-推荐算法1
摘要:一:推荐算法的构建流程 Data(数据) Features(特征) ML Algorithm(机器学习算法) Prediction Output(预测输出) 二:最经典的推荐算法 算法思想:物以类聚,人以群分 基本的协同过滤推荐算法基于以下假设: “跟你喜好相似的人喜欢的东西你也很有可能喜欢” :基 阅读全文

posted @ 2022-01-12 18:36 paike123 阅读(65) 评论(0) 推荐(0) 编辑

7-推荐系统简介及推荐系统的架构设计
摘要:一: 推荐系统的简介 推荐系统产生背景 信息过载 & 用户需求不明确 分类⽬录(1990s):覆盖少量热门⽹站。Hao123 Yahoo 搜索引擎(2000s):通过搜索词明确需求。Google Baidu 推荐系统(2010s):不需要⽤户提供明确的需求,通过分析⽤户的历史⾏为给⽤户的兴趣进⾏建模 阅读全文

posted @ 2022-01-07 10:47 paike123 阅读(502) 评论(0) 推荐(0) 编辑

6-spark_streaming
摘要:学习目标 说出Spark Streaming的特点 说出DStreaming的常见操作api 能够应用Spark Streaming实现实时数据处理 能够应用Spark Streaming的状态操作解决实际问题 独立实现foreachRDD向mysql数据库的数据写入 独立实现Spark Strea 阅读全文

posted @ 2022-01-06 11:59 paike123 阅读(50) 评论(0) 推荐(0) 编辑

5-spark_sql
摘要:学习目标 知道spark_sql 的相关概念 知道DataFrame 与RDD的联系 能实现spark_sql对json的处理 实现spark_sql对数据清洗 一:spark_sql的概述 spark_sql 概念 他是处理结构化数据的一个模块,它提供的最核心的编程抽象就是DataFrame sp 阅读全文

posted @ 2022-01-06 11:12 paike123 阅读(64) 评论(0) 推荐(0) 编辑

RuntimeError: generator raised StopIteration
摘要:开始我使用的python3.7 spark2.1 利用sparkStreaming 时出现错误( RuntimeError: generator raised StopIteration): 如下: python 代码: import os JAVA_HOME = '/usr/local/java/ 阅读全文

posted @ 2022-01-05 18:35 paike123 阅读(1387) 评论(0) 推荐(0) 编辑

4-spark core
摘要:一:spark 入门 1.1 spark概述 1、什么是spark 基于内存的计算引擎,它的计算速度非常快。但是仅仅只涉及到数据的计算,并没有涉及到数据的存储。 2、为什么要学习spark MapReduce框架局限性 1,Map结果写磁盘,Reduce写HDFS,多个MR之间通过HDFS交换数据 阅读全文

posted @ 2021-11-24 17:39 paike123 阅读(55) 评论(0) 推荐(0) 编辑

3.hbase
摘要:一:HBase简介&在Hadoop生态中的地位 1.1 什么是HBase HBase是一个分布式的、面向列的开源数据库 HBase是Google BigTable的开源实现 HBase不同于一般的关系数据库, 适合非结构化数据存储 1.2 BigTable BigTable是Google设计的分布式 阅读全文

posted @ 2021-11-19 14:32 paike123 阅读(127) 评论(0) 推荐(0) 编辑

2:hive
摘要:1 Hive简介 1.1 什么是 Hive Hive 由 Facebook 实现并开源,是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据映射为一张数据库表,并提供 HQL(Hive SQL)查询功能,底层数据是存储在 HDFS 上。 Hive 本质: 将 SQL 语句转换为 MapRed 阅读全文

posted @ 2021-11-14 00:00 paike123 阅读(55) 评论(0) 推荐(0) 编辑

1.hadoop
摘要:1: hadoop 核心组件 Hadoop是所有搜索引擎的共性问题的廉价解决方案 如何存储持续增长的海量网页: 单节点 V.S. 分布式存储 如何对持续增长的海量网页进行排序: 超算 V.S. 分布式计算 HDFS 解决分布式存储问题 MapReduce 解决分布式计算问题 Hadoop Commo 阅读全文

posted @ 2021-11-13 23:41 paike123 阅读(64) 评论(0) 推荐(0) 编辑

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示