随笔分类 -  spark

spark2.2jdbc写入mysql 的两种方法(append,Overriedwrite)-不用Mysql建表
摘要:import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.sql.{SQLContext, SaveMode} import org.apache.spark.sql.hive.HiveContext //spark-shell --driver-class-path /home/hadoop/hive... 阅读全文

posted @ 2018-06-05 14:19 残阳飞雪 阅读(4689) 评论(0) 推荐(0) 编辑

lakala反欺诈建模实际应用代码GBDT监督学习
摘要:/** * Created by lkl on 2018/1/16. */ import org.apache.spark.mllib.evaluation.BinaryClassificationMetrics import org.apache.spark.mllib.linalg.Vectors import org.apache.spark.mllib.regression.La... 阅读全文

posted @ 2018-01-16 14:35 残阳飞雪 阅读(378) 评论(0) 推荐(0) 编辑

201707舆情分析系统代码
摘要:import breeze.linalg import org.apache.spark.ml.Pipeline import org.apache.spark.ml.classification.MultilayerPerceptronClassifier import org.apache.spark.ml.evaluation.MulticlassClassificationEvaluat... 阅读全文

posted @ 2017-07-28 11:06 残阳飞雪 阅读(782) 评论(0) 推荐(0) 编辑

Scala2.11.8 spark2.3.1 mongodb connector 2.3.0
摘要:import java.sql.DriverManager import com.mongodb.spark._ import org.apache.spark.SparkConf import org.apache.spark.sql.SparkSession object mongospark20180830consume_amount { // 关于记录多个相同字段的处理方法 htt... 阅读全文

posted @ 2016-07-21 15:11 残阳飞雪 阅读(1636) 评论(0) 推荐(1) 编辑

spark 实现动态日期读取
摘要:import org.apache.spark.{SparkConf, SparkContext} /** * Created by songcl on 2016/7/15. */ object day_uv { def main(args: Array[String]): Unit = { /** 阅读全文

posted @ 2016-07-17 14:23 残阳飞雪 阅读(337) 评论(0) 推荐(0) 编辑

spark 内存溢出问题
只有注册用户登录后才能阅读该文。

posted @ 2016-07-09 20:30 残阳飞雪 阅读(1) 评论(0) 推荐(0) 编辑

spark MySQL jar 包
摘要:参考链接 提交包,前提是要配置环境变量 export SPARK_CLASSPATH=$SPARK_CLASSPATH:/usr/local/spark/mysql/mysql.jar spark-submit --class insertmysql /home/deploy/mysqltest.j 阅读全文

posted @ 2016-06-24 11:45 残阳飞雪 阅读(1078) 评论(0) 推荐(0) 编辑

spark 创建自定义函数
该文被密码保护。

posted @ 2016-06-01 21:00 残阳飞雪 阅读(9) 评论(0) 推荐(0) 编辑

远程调试scala mysql驱动《需先在buit library中加入驱动》
该文被密码保护。

posted @ 2016-05-28 16:32 残阳飞雪 阅读(3) 评论(0) 推荐(0) 编辑

spark 向mysql 创建表,插入数据(含日期格式处理)
该文被密码保护。

posted @ 2016-05-23 13:29 残阳飞雪 阅读(19) 评论(0) 推荐(0) 编辑

scala 日期格式转换
摘要:scala> val format = new java.text.SimpleDateFormat("dd-MM-yyyy") 注意MM必须要大写 format: java.text.SimpleDateFormat = java.text.SimpleDateFormat@9586200 scala> format.format(new java.util.Date()) res4: j... 阅读全文

posted @ 2016-05-23 10:17 残阳飞雪 阅读(3990) 评论(0) 推荐(0) 编辑

sparkSQL实际应用
摘要:提交代码包 /usr/local/spark/bin$ spark-submit --class "getkv" /data/chun/sparktes.jar 1、查询KV 2、关联MySQL 3 、项目关联活跃用户数 val h=house.toDF().registerTempTable("h 阅读全文

posted @ 2016-05-13 09:31 残阳飞雪 阅读(566) 评论(0) 推荐(0) 编辑

spark 修改分区(存储结果需要)
摘要:修改分区就行了val rdd1 = sc.parallelize(Array(1,2,3,4,5,6,7,8))# 查看分区数rdd1.partitions.length# 改成1个分区val rdd2 = rdd1.repartition(1)rdd2.partitions.length 阅读全文

posted @ 2016-04-18 10:56 残阳飞雪 阅读(475) 评论(0) 推荐(0) 编辑

用spark 分析日志文件
该文被密码保护。

posted @ 2016-04-17 13:37 残阳飞雪 阅读(8) 评论(0) 推荐(0) 编辑

spark not contain
摘要:参考网址 http://stackoverflow.com/questions/33608526/is-there-a-way-to-filter-a-field-not-containing-something-in-a-spark-dataframe-u 阅读全文

posted @ 2016-04-16 17:27 残阳飞雪 阅读(567) 评论(0) 推荐(0) 编辑

spark 分析日志文件(key,value)
摘要:Spark读取日志,统计每个service所用的平均时间 发布时间:2015-12-10 9:54:15来源:分享查询网 获取log日志,每个service以“#*#”开头。统计每个service所需的平均时间。 import java.io.{File, PrintWriter} import o 阅读全文

posted @ 2016-04-12 17:00 残阳飞雪 阅读(1086) 评论(0) 推荐(0) 编辑

spark 非常好的学习内容
摘要:http://homepage.cs.latrobe.edu.au/zhe/ZhenHeSparkRDDAPIExamples.html 阅读全文

posted @ 2016-04-08 15:30 残阳飞雪 阅读(189) 评论(0) 推荐(0) 编辑

使用 ML Pipeline 构建机器学习工作流
摘要:http://www.ibm.com/developerworks/cn/opensource/os-cn-spark-practice5/ 阅读全文

posted @ 2016-01-25 20:54 残阳飞雪 阅读(235) 评论(0) 推荐(0) 编辑

浅谈MySQL中优化sql语句查询常用的30种方法
摘要:本文摘抄自http://www.dedecms.com/knowledge/data-base/mysql/2012/0819/7695.html1.对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引。2.应尽量避免在 where 子句中使用!=或... 阅读全文

posted @ 2015-08-09 09:28 残阳飞雪 阅读(181) 评论(0) 推荐(0) 编辑

spark 源码阅读博客
摘要:http://blog.csdn.net/oopsoom/article/details/38257749 阅读全文

posted @ 2015-08-03 22:08 残阳飞雪 阅读(147) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示