随笔分类 -  spark+Hadoop+linux

Spark--sql--所有函数举例(spark-2.x版本)
摘要:参考https://www.2cto.com/net/201803/727248.html 阅读全文

posted @ 2018-09-11 22:51 残阳飞雪 阅读(3002) 评论(0) 推荐(0) 编辑

spark2.2jdbc写入mysql 的两种方法(append,Overriedwrite)-不用Mysql建表
摘要:import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.sql.{SQLContext, SaveMode} import org.apache.spark.sql.hive.HiveContext //spark-shell --driver-class-path /home/hadoop/hive... 阅读全文

posted @ 2018-06-05 14:19 残阳飞雪 阅读(4689) 评论(0) 推荐(0) 编辑

spark 解析非结构化数据存储至hive的scala代码
摘要://提交代码包 // /usr/local/spark/bin$ spark-submit --class "getkv" /data/chun/sparktes.jar import org.apache.spark.sql.{DataFrame, Row, SQLContext, SaveMode} import org.apache.spark.{SparkConf, SparkCon... 阅读全文

posted @ 2018-05-21 12:39 残阳飞雪 阅读(1899) 评论(0) 推荐(0) 编辑

scala实现相邻两个元素挑换位置的代码,哈哈
摘要:import scala.math._ import breeze.plot._ import breeze.linalg._ import scala.collection.mutable.ArrayBuffer //https://stackoverflow.com/questions/36984780/spark-shell-how-to-use-breeze-viz object br... 阅读全文

posted @ 2018-01-30 15:01 残阳飞雪 阅读(452) 评论(0) 推荐(0) 编辑

lakala proportion轨迹分析代码
摘要:/** * Created by lkl on 2017/12/7. */ import breeze.numerics.abs import org.apache.spark.sql.SQLContext import org.apache.spark.mllib.regression.LabeledPoint import org.apache.spark.SparkContext ... 阅读全文

posted @ 2017-12-08 16:47 残阳飞雪 阅读(292) 评论(0) 推荐(0) 编辑

lakala GradientBoostedTrees
摘要:/** * Created by lkl on 2017/12/6. */ import org.apache.spark.mllib.evaluation.BinaryClassificationMetrics import org.apache.spark.mllib.linalg.Vectors import org.apache.spark.mllib.regression.La... 阅读全文

posted @ 2017-12-08 16:46 残阳飞雪 阅读(286) 评论(0) 推荐(0) 编辑

result源码
摘要:CREATE TABLE `result` (`id` INT(10) UNSIGNED NOT NULL AUTO_INCREMENT,`thetime` CHAR(100) , `category` CHAR(100) , `weight` decimal(24,4), PRIMARY KEY 阅读全文

posted @ 2017-08-01 18:04 残阳飞雪 阅读(222) 评论(0) 推荐(0) 编辑

layer
摘要:CREATE table layer(id INT(12) UNSIGNED NOT NULL AUTO_INCREMENT, words VARCHAR(500), value decimal(10,7), PRIMARY KEY(id) ) DEFAULT CHARSET=utf8; ALTER TABLE `layer` ADD INDEX(`words`) /** *... 阅读全文

posted @ 2017-08-01 16:44 残阳飞雪 阅读(383) 评论(0) 推荐(0) 编辑

201707舆情分析系统阶段总结
摘要:目标 1、行业定义 2、行业识别 3、 情绪计算 1、 行业定义 综合 新国家标准《国民经济行业分类》(GBT4754-2011)和专业证券业务的《同花顺》将行业划分为65个行业: number category number category number category number cate 阅读全文

posted @ 2017-07-28 11:05 残阳飞雪 阅读(770) 评论(0) 推荐(0) 编辑

SELECT a.loginname,a.deviceid,a.time,Row_Number() OVER (partition by a.loginname ORDER BY a.deviceid desc,a.time asc) rank
摘要:现在做一个反欺诈内容要用到笛卡尔积,用来分析用户一个手机号,对应的多个设备,每个更换设备的时间,这里取的时间是系统收集时间,用来代表更换的时间, 所以要先对设备换的时间作排序,然后进行rank,最后求每2个设备之间的更换时间间隔。SELECT a.loginname,a.deviceid,a.time,Row_Number() OVER (partition by a.loginname ORD... 阅读全文

posted @ 2017-04-21 10:47 残阳飞雪 阅读(205) 评论(0) 推荐(0) 编辑

以当前日期命名或复制文件夹
摘要:scp /data2/logstash/data/logstash.$(date -d "today" +"%Y%m%d_%H%M%S").log deploy@10.0.58.21:/data/chun/ 阅读全文

posted @ 2016-08-04 20:11 残阳飞雪 阅读(651) 评论(0) 推荐(0) 编辑

使用IntelliJ IDEA 14和Maven创建java web项目
摘要:参考地址 http://www.cnblogs.com/jifeng/p/4658765.html 阅读全文

posted @ 2016-07-28 10:01 残阳飞雪 阅读(201) 评论(0) 推荐(0) 编辑

Scala2.11.8 spark2.3.1 mongodb connector 2.3.0
摘要:import java.sql.DriverManager import com.mongodb.spark._ import org.apache.spark.SparkConf import org.apache.spark.sql.SparkSession object mongospark20180830consume_amount { // 关于记录多个相同字段的处理方法 htt... 阅读全文

posted @ 2016-07-21 15:11 残阳飞雪 阅读(1636) 评论(0) 推荐(1) 编辑

linux下的crontab服务
摘要:1、crontab 是用来让使用者在固定时间或固定间隔执行程序之用在linux平台上如果需要实现任务调度功能可以编写cron脚本来实现。以某一频率执行任务linux缺省会启动crond进程,crond进程不需要用户启动、关闭。crond进程负责读取调度任务并执行,用户只需要将相应的调度脚本写入cro 阅读全文

posted @ 2016-06-27 10:34 残阳飞雪 阅读(5662) 评论(1) 推荐(1) 编辑

mysql 解压版方法
摘要:来自http://zhidao.baidu.com/link?url=RtXb2QKYTQ8Yd5TdTS7XHHiupzDaM19vlVBIrHTVmT7ZHi8kG3O9L6D6nnsfTGE--pUE_pBDiN51znKMJkTFObblgERkja58cS-mV-yosC_您好,提问者: ... 阅读全文

posted @ 2015-08-23 15:31 残阳飞雪 阅读(176) 评论(0) 推荐(0) 编辑

sqoop定时增量导入导出
摘要:sqoop定时增量导入2013-11-06 14:234553人阅读评论(0)收藏举报sqoop使用hsql来存储job信息,开启metastor service将job信息共享,所有node上的sqoop都可以运行同一个job一、sqoop的配置文件在sqoop.site.xml中: 1、sqoo... 阅读全文

posted @ 2015-08-14 23:40 残阳飞雪 阅读(2478) 评论(0) 推荐(1) 编辑

Hive性能分析和优化方法
摘要:Hive性能分析和优化方法http://wenku.baidu.com/link?url=LVrnj-mD0OB69-eUH-0b2LGzc2SN76hjLVsGfCdYjV8ogyyN-BSja5x-oI674BweAafOt9-UfvlSNfeXfGKrpJOh-HXbu78Ei9CNBwZL4... 阅读全文

posted @ 2015-08-14 14:14 残阳飞雪 阅读(316) 评论(0) 推荐(0) 编辑

hive 1.2 配置
摘要:参考链接 http://www.cnblogs.com/yjmyzz/p/how-to-install-hive-1-2-0-on-mac.html 阅读全文

posted @ 2015-07-20 15:06 残阳飞雪 阅读(293) 评论(0) 推荐(0) 编辑

mysql 创建和删除用户
摘要:1.远程登录mysqlmysql -h ip -u root -p 密码2.创建用户 格式:grant 权限 on 数据库.* to 用户名@登录主机 identified by "密码"; 例1:增加一个test1用户,密码为123456,可以在任何主机上登录,并对所有数据库有查询,增加,修改和删... 阅读全文

posted @ 2015-07-16 10:40 残阳飞雪 阅读(228) 评论(0) 推荐(0) 编辑

eclipse 访问 hive1.2.1
摘要:参考链接1.http://www.iteblog.com/archives/846操作实际参考代码:http://sunhs.sinaapp.com/?p=343配置eclipse 搞1天, 不管怎样导入包一直提示DriverManager not found exception:注意1:要导入的包... 阅读全文

posted @ 2015-07-15 13:37 残阳飞雪 阅读(759) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示