大数据与推荐算法 - 随笔分类 - paike123

pyspark 集成hive

摘要：1：PySpark类库和标准Spark框架的简单对比 2: 安装将/spark/python/pyspark 复制到 python 的安装包中或者 pip install pyspark (注意版本对应关系） 3：spark on hive 本质：将hive的执行引擎替换为spark 的执行引阅读全文

posted @ 2022-07-17 12:26 paike123 阅读(592) 评论(0) 推荐(1) 编辑

-bash: /root/.rvm/scripts/rvm: No such file or directory

摘要：通过一下方式安装的rvm （rvm的安装参考 https://blog.csdn.net/u013938578/article/details/118221111） curl -L get.rvm.io | bash -s stable 默认是在 /usr/local/rvm下，但用ssh做免密登录阅读全文

posted @ 2022-05-24 18:27 paike123 阅读(206) 评论(0) 推荐(0) 编辑

Word2Vec 简介

摘要：word2Vec 能做什么：计算相似度：寻找相似词或者相似文章的相似度文本生成，机器编译等定义： word2Vec 是谷歌2013年提出来的NLP工具，它的特点就是可以将单词转化为向量表示，这样就可以通过向量与向量之间的距离来度量它们之间的相似度，从而发现他们之间存在的潜在关系。虽然现阅读全文

posted @ 2022-05-02 11:08 paike123 阅读(721) 评论(0) 推荐(0) 编辑

jieba分词库——基于 TextRank 算法的关键词抽取

摘要：基于 TextRank 算法的关键词抽取 TextRank算法 TD-IDF是基于词频的算法，而TextRank是基于图形的算法。 TextRank是受到PageRank算法的启发。 PageRank算法 PageRank主要用于对在线搜索结果中的网页进行排序。 PageRank对于每个网页页面都阅读全文

posted @ 2022-03-09 15:06 paike123 阅读(796) 评论(0) 推荐(0) 编辑

文章画像得计算

摘要：一：计算TF-IDF 值 1: 初始化spark环境 # 初始化spark信息 import os import sys BASE_DIR= os.path.dirname(os.path.dirname("/bigdata/projects/toutiao_projects/reco_sys/o 阅读全文

posted @ 2022-02-28 17:37 paike123 阅读(59) 评论(0) 推荐(0) 编辑

FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. Cannot validate serde: org.apache.hive.hcatalog.data.JsonSerDe

摘要：用下列sql语句在hive 中创建表， create table user_action( actionTime STRING comment "user actions time", readTime STRING comment "user reading time", channelId IN 阅读全文

posted @ 2022-02-25 16:10 paike123 阅读(386) 评论(0) 推荐(0) 编辑

pyspark.sql.utils.AnalysisException: u"Table or view not found:`ods_fpos`.`sales_order_item_promotion`

摘要：解决 pyspark.sql.utils.AnalysisException: u"Table or view not found:`ods_fpos`.`sales_order_item_promotion` 第一步：启动 hive的metastore元数据服务 hive --service me 阅读全文

posted @ 2022-02-21 15:26 paike123 阅读(682) 评论(0) 推荐(0) 编辑

flume

摘要：一、Flume安装部署 1.1、安装地址 1） Flume 官网地址 http://flume.apache.org/ 2）文档查看地址 http://flume.apache.org/FlumeUserGuide.html 3）下载地址 http://archive.apache.org/dist 阅读全文

posted @ 2022-02-17 11:06 paike123 阅读(47) 评论(0) 推荐(0) 编辑

sqoop 的安装和使用

摘要：一、安装概述安装sqoop，为实现将mysql、hive数据库之间数据传送功能。二、下载及安装官网下载地址，http://archive.apache.org/dist/sqoop/，我选择的版本是1.4.7 将已下载的安装包上传到hadoop的根节点，并解压 [hadoop@hadoop01 阅读全文

posted @ 2022-02-16 11:13 paike123 阅读(212) 评论(0) 推荐(1) 编辑

8-推荐算法1

摘要：一：推荐算法的构建流程 Data(数据) Features(特征) ML Algorithm(机器学习算法) Prediction Output(预测输出) 二：最经典的推荐算法算法思想：物以类聚，人以群分基本的协同过滤推荐算法基于以下假设： “跟你喜好相似的人喜欢的东西你也很有可能喜欢” ：基阅读全文

posted @ 2022-01-12 18:36 paike123 阅读(65) 评论(0) 推荐(0) 编辑

7-推荐系统简介及推荐系统的架构设计

摘要：一：推荐系统的简介推荐系统产生背景信息过载 & 用户需求不明确分类⽬录（1990s）：覆盖少量热门⽹站。Hao123 Yahoo 搜索引擎（2000s）：通过搜索词明确需求。Google Baidu 推荐系统（2010s）：不需要⽤户提供明确的需求，通过分析⽤户的历史⾏为给⽤户的兴趣进⾏建模阅读全文

posted @ 2022-01-07 10:47 paike123 阅读(502) 评论(0) 推荐(0) 编辑

6-spark_streaming

摘要：学习目标说出Spark Streaming的特点说出DStreaming的常见操作api 能够应用Spark Streaming实现实时数据处理能够应用Spark Streaming的状态操作解决实际问题独立实现foreachRDD向mysql数据库的数据写入独立实现Spark Strea 阅读全文

posted @ 2022-01-06 11:59 paike123 阅读(50) 评论(0) 推荐(0) 编辑

5-spark_sql

摘要：学习目标知道spark_sql 的相关概念知道DataFrame 与RDD的联系能实现spark_sql对json的处理实现spark_sql对数据清洗一：spark_sql的概述 spark_sql 概念他是处理结构化数据的一个模块,它提供的最核心的编程抽象就是DataFrame sp 阅读全文

posted @ 2022-01-06 11:12 paike123 阅读(64) 评论(0) 推荐(0) 编辑

RuntimeError: generator raised StopIteration

摘要：开始我使用的python3.7 spark2.1 利用sparkStreaming 时出现错误（ RuntimeError: generator raised StopIteration）：如下： python 代码： import os JAVA_HOME = '/usr/local/java/ 阅读全文

posted @ 2022-01-05 18:35 paike123 阅读(1387) 评论(0) 推荐(0) 编辑

4-spark core

摘要：一：spark 入门 1.1 spark概述 1、什么是spark 基于内存的计算引擎，它的计算速度非常快。但是仅仅只涉及到数据的计算，并没有涉及到数据的存储。 2、为什么要学习spark MapReduce框架局限性 1，Map结果写磁盘，Reduce写HDFS，多个MR之间通过HDFS交换数据阅读全文

posted @ 2021-11-24 17:39 paike123 阅读(55) 评论(0) 推荐(0) 编辑

3.hbase

摘要：一：HBase简介&在Hadoop生态中的地位 1.1 什么是HBase HBase是一个分布式的、面向列的开源数据库 HBase是Google BigTable的开源实现 HBase不同于一般的关系数据库, 适合非结构化数据存储 1.2 BigTable BigTable是Google设计的分布式阅读全文

posted @ 2021-11-19 14:32 paike123 阅读(127) 评论(0) 推荐(0) 编辑

2：hive

摘要：1 Hive简介 1.1 什么是 Hive Hive 由 Facebook 实现并开源，是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据映射为一张数据库表，并提供 HQL(Hive SQL)查询功能，底层数据是存储在 HDFS 上。 Hive 本质: 将 SQL 语句转换为 MapRed 阅读全文

posted @ 2021-11-14 00:00 paike123 阅读(55) 评论(0) 推荐(0) 编辑

1.hadoop

摘要：1: hadoop 核心组件 Hadoop是所有搜索引擎的共性问题的廉价解决方案如何存储持续增长的海量网页: 单节点 V.S. 分布式存储如何对持续增长的海量网页进行排序: 超算 V.S. 分布式计算 HDFS 解决分布式存储问题 MapReduce 解决分布式计算问题 Hadoop Commo 阅读全文

posted @ 2021-11-13 23:41 paike123 阅读(64) 评论(0) 推荐(0) 编辑

莫凡

随笔分类 - 大数据与推荐算法

pyspark 集成hive

-bash: /root/.rvm/scripts/rvm: No such file or directory

Word2Vec 简介

jieba分词库——基于 TextRank 算法的关键词抽取

文章画像得计算

FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. Cannot validate serde: org.apache.hive.hcatalog.data.JsonSerDe

pyspark.sql.utils.AnalysisException: u"Table or view not found:`ods_fpos`.`sales_order_item_promotion`

flume

sqoop 的安装和使用

8-推荐算法1

7-推荐系统简介及推荐系统的架构设计

6-spark_streaming

5-spark_sql

RuntimeError: generator raised StopIteration

4-spark core

3.hbase

2：hive

1.hadoop

导航

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论