Fork me on GitHub

随笔分类 -  Spark

学习spark
摘要:项目地址见:https://github.com/jiangnanboy/spark_data_mining/tree/master/src/main/java/com/sy/dataalgorithms/advanced/time_series 一.概要 此项目将围绕一个时间序列预测任务展开。该任 阅读全文
posted @ 2022-08-22 21:07 石头木 阅读(1226) 评论(0) 推荐(0) 编辑
摘要:一.来源 此项目来源《Data Algorithms Recipes for Scaling Up with Hadoop and Spark》第11章,本程序利用spark3.0以及java8进行改写, 改写的有: 1.利用spark3.0与java8 2.直接利用spark生成最终的状态转移矩阵 阅读全文
posted @ 2020-11-22 10:39 石头木 阅读(356) 评论(0) 推荐(0) 编辑
摘要:一.目的 基于基站定位数据的商圈分析移动通信网络会记录用户手机的相关信息,比如手机所处的基站区域编号,所处基站的时间等。根据这些数据可以进行商圈划分,目的是为了研究潜在的顾客的分布以制定适宜的商业对策。如:可划分商业区、住宅区以及工作区 二.数据 数据来源【Python数据分析与挖掘实战(第14章基 阅读全文
posted @ 2020-11-22 10:25 石头木 阅读(781) 评论(0) 推荐(0) 编辑
摘要:一.数据 这是一个Udacity纳米学位项目(数据科学的顶点)。这个项目使用来自Sparkify的用户事件数据来建立一个模型来预测用户的流失。Sparkify是一个类似于Spotify或Pandora的数字化音乐服务(类似于网易云音乐和QQ音乐的音乐平台)。使用Spark分析探索某数字音乐服务平台S 阅读全文
posted @ 2020-11-22 10:13 石头木 阅读(440) 评论(0) 推荐(0) 编辑
摘要:一.什么是AHP RFM是对顾客价值分群,但是每个群内的顾客并没有区分价值度。所以AHP就是针对每个群内的顾客进行打分去区分不同价值顾客。 什么是AHP > https://baike.baidu.com/item/%E5%B1%82%E6%AC%A1%E5%88%86%E6%9E%90%E6%B3 阅读全文
posted @ 2020-11-21 10:49 石头木 阅读(645) 评论(0) 推荐(0) 编辑
摘要:一.RFM RFM是一种用来衡量当前客户价值和潜在客户价值的重要工具和手段。 在面向客户制定运营策略、营销策略时,我们希望能够针对不同的客户推行不同的策略,实现精准化运营,以期获取最大的转化率。精准化运营的前提是客户关系管理,而客户关系管理的核心是客户分类。 通过客户分类,对客户群体进行细分,区别出 阅读全文
posted @ 2020-11-21 10:36 石头木 阅读(737) 评论(0) 推荐(0) 编辑
摘要:一.统计指标针对淘宝app一个月的数据进行流量运营分析,主要包括: 1.app流量分析 (1).pv页面浏览量 (2).uv独立访客 (3).访问深度 (4).每天访客数和成交量 (5).不同时段的访客数及成交量 (6).流失率 2.用户行为分析 (1).用户浏览活跃时段 (2).用户购买活跃时段 阅读全文
posted @ 2020-11-21 10:18 石头木 阅读(690) 评论(0) 推荐(0) 编辑
摘要:一.简介电影知识图谱问答,利用spark,neo4j以及hanlp完成一个简易的电影问答。二.要求 利用java-driver方式,使用cypher和apoc构建节点和关系,使用spark ml完成问句分类。 1.neo4j3.5.3 2.apoc3.5.0.13 3.jdk1.8 4.hanlp1 阅读全文
posted @ 2020-09-23 22:13 石头木 阅读(1590) 评论(0) 推荐(0) 编辑
摘要:一.smote相关理论 (1). SMOTE是一种对普通过采样(oversampling)的一个改良。普通的过采样会使得训练集中有很多重复的样本。 SMOTE的全称是Synthetic Minority Over-Sampling Technique,译为“人工少数类过采样法”。 SMOTE没有直接 阅读全文
posted @ 2019-07-24 22:02 石头木 阅读(1373) 评论(0) 推荐(0) 编辑
摘要:记录一下版本问题: spark与scala版本对应问题: 1.官网会给出,如下,spark2.3.1默认需要scala2.11版本 2.在maven依赖网中也可以看到,如下 3.关于idea开发版本中也可以看到所需要依赖的scala版本 通常在file->project structure->glo 阅读全文
posted @ 2018-09-17 22:22 石头木 阅读(13194) 评论(0) 推荐(0) 编辑
摘要:初始化SparkContext 关闭spark可以用SparkContext的stop()方法,或直接退出应用,如System.exit(0)或sys.exit() 参考《spark快速大数据分析》 阅读全文
posted @ 2016-12-12 23:24 石头木 阅读(1999) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示