摘要: 内置过滤器的使用 HBase为筛选数据提供了一组过滤器,通过这个过滤器可以在HBase中数据的多个维度(行、列、数据版本)上进行对数据的筛选操作,也就是说过滤器最终能够筛选的数据能够细化到具体的一个存储单元格上(由行键、列名、时间戳定位)。通常来说,通过行键、值来筛选数据的应用场景较多。需要说明的是 阅读全文
posted @ 2018-09-05 16:08 一直爬行的蜗牛牛 阅读(4961) 评论(0) 推荐(0) 编辑
摘要: 《Spark 官方文档》Spark配置 spark-1.6.0 原文地址 Spark配置 Spark有以下三种方式修改配置: Spark properties (Spark属性)可以控制绝大多数应用程序参数,而且既可以通过 SparkConf 对象来设置,也可以通过Java系统属性来设置。 Envi 阅读全文
posted @ 2018-09-05 10:37 一直爬行的蜗牛牛 阅读(20958) 评论(1) 推荐(1) 编辑
摘要: 1 dataset df1,df2,df3 2 3 //该方法可以执行成功 4 df3= df1.join(df2,"post_id").selectExpr("hostname,request_date,post_id,title,author,name as category".split(",")); //innner join 5 6 acc = df1.withCol... 阅读全文
posted @ 2018-09-03 16:03 一直爬行的蜗牛牛 阅读(5282) 评论(0) 推荐(0) 编辑
摘要: 1. List 转 Seq: List<String> tmpList = new ArrayList<>(); tmpList.add("abc"); Seq<String> tmpSeq = JavaConverters.asScalaIteratorConverter(tmpList.iter 阅读全文
posted @ 2018-09-03 15:19 一直爬行的蜗牛牛 阅读(476) 评论(0) 推荐(0) 编辑
摘要: 问题 datafrme提供了强大的JOIN操作,但是在操作的时候,经常发现会碰到重复列的问题。在你不注意的时候,去用相关列做其他操作的时候,就会出现问题! 假如这两个字段同时存在,那么就会报错,如下:org.apache.spark.sql.AnalysisException: Reference 阅读全文
posted @ 2018-08-31 17:38 一直爬行的蜗牛牛 阅读(4039) 评论(0) 推荐(0) 编辑
摘要: 开源 IP 地址定位库 ip2region 1.4 ip2region 是准确率 99.9% 的 IP 地址定位库,0.0x毫秒级查询,数据库文件大小只有 2.7M,提供了 Java、PHP、C、Python、Node.js、Golang 的查询绑定和 Binary、B树、内存三种查询算法,妈妈再也 阅读全文
posted @ 2018-08-29 11:54 一直爬行的蜗牛牛 阅读(882) 评论(0) 推荐(0) 编辑
摘要: 测试数据: id,name,age,comment,date 1,lyy,28,"aaa bbb",20180102020325 阅读全文
posted @ 2018-08-28 17:17 一直爬行的蜗牛牛 阅读(4141) 评论(0) 推荐(0) 编辑
摘要: train.csv数据: id,name,age,sex1,lyy,20,F2,rdd,20,M3,nyc,18,M4,mzy,10,M 数据读取: root |-- id: integer (nullable = true) |-- name: string (nullable = true) | 阅读全文
posted @ 2018-08-23 12:04 一直爬行的蜗牛牛 阅读(1724) 评论(0) 推荐(0) 编辑
摘要: 数据1:kaggle-旧金山犯罪分类数据 格式如下: Dates,Category,Descript,DayOfWeek,PdDistrict,Resolution,Address,X,Y 2015-05-13 23:53:00,WARRANTS,WARRANT ARREST,Wednesday,NORTHERN,"ARREST, BOOKED",OAK ST / LAGUNA ST,-122.... 阅读全文
posted @ 2018-08-22 15:49 一直爬行的蜗牛牛 阅读(1673) 评论(0) 推荐(0) 编辑
摘要: 商业敏感数据虽然难以获取,但好在仍有相当多有用数据可公开访问。它们中的不少常用来作为特定机器学习问题的基准测试数据。常见的有以下几个: 文章目录 1 UCL机器学习知识库 2 Amazon AWS公开数据集 3 Kaggle 4 KDnuggets 5 美国联邦政府数据集 6 来自infochimp 阅读全文
posted @ 2018-08-20 16:59 一直爬行的蜗牛牛 阅读(1660) 评论(0) 推荐(0) 编辑