上一页 1 ··· 6 7 8 9 10 11 12 13 14 下一页
摘要: P2P、P2C 、O2O 、B2C、B2B、 C2C 什么是P2P P2P借贷是一种将非常小额度的资金聚集起来借贷给有资金需求人群的一种民间小额借贷模式。P2P是“Peer-to-Peer”的简写,个人对个人的意思,P2P借贷指个人通过第三方平台(P2P公司)在收取一定服务费用的前提下向其他个人提供 阅读全文
posted @ 2018-12-11 14:44 才华充电中 阅读(336) 评论(0) 推荐(0) 编辑
摘要: Mapreduce的过程整体上分为四个阶段:InputFormat 、MapTask 、ReduceTask 、OutPutFormat,当然中间还有shuffle阶段 读取(InputFormat): 我们通过在runner类中用 job.setInputPaths 或者是addInputPath 阅读全文
posted @ 2018-12-06 17:23 才华充电中 阅读(707) 评论(0) 推荐(0) 编辑
摘要: 创建 结构 1.create or replace procedure procedure_name: 创建存储过程,replace为替换原过程。如果创建新过程,而该过程已经存在,不加replace会报错 2.参数列表定义 参数名和参数类型。参数名不能重复,参数类型不需要长度,参数传递方式:IN, 阅读全文
posted @ 2018-12-06 15:57 才华充电中 阅读(226) 评论(0) 推荐(0) 编辑
摘要: 常用的存储格式 1.textfile Hive数据表的默认格式,数据不做压缩,磁盘开销大,数据解析开销大。存储方式:行存储。 可以使用Gzip压缩算法,但压缩后的文件不支持split。 在反序列化过程中,必须逐个字符判断是不是分隔符和行结束符,因此反序列化开销会比SequenceFile高几十倍。 阅读全文
posted @ 2018-12-05 16:58 才华充电中 阅读(2984) 评论(0) 推荐(0) 编辑
摘要: 基础数据类型与java数据类型一致 整型 TINYINT — 微整型,只占用1个字节,只能存储0-255的整数。 SMALLINT– 小整型,占用2个字节,存储范围–32768 到 32767。 INT– 整型,占用4个字节,存储范围-2147483648到2147483647。 BIGINT– 长 阅读全文
posted @ 2018-12-05 16:25 才华充电中 阅读(17350) 评论(0) 推荐(0) 编辑
摘要: 1.SQL语句大写 因为oracle总是先解析SQL语句,把小写的字母转换成大写的再执行。 2.表别名 多表join时,尽量使用表别名,同时把表别名前缀于每一列上,减少解析的时间及由列歧义引起的语法错误 3.from从右到左解析表名 from子句中写在最后的表(基础表也称为驱动表,driving t 阅读全文
posted @ 2018-12-05 16:04 才华充电中 阅读(330) 评论(0) 推荐(0) 编辑
摘要: 1.数据过滤 尽量先过滤数据,减少每个阶段的数据量,然后再进行join 2.分区 要合理使用分区,hive分区数据文件是放在不同目录下的 3.执行顺序 hive总是按照从左到右的顺序执行语句 4.job任务数 hive会对每次join启动一个mapreduce任务 当对3个或者更多个表进行join连 阅读全文
posted @ 2018-12-05 15:29 才华充电中 阅读(1796) 评论(0) 推荐(1) 编辑
摘要: #reduce的输出是否压缩 set mapred.output.compress=true; #控制是否将hive中最后的结果进行压缩的。如果将该参数设置为true的时候,文件类型一般会选择SequenceFile。 set hive.exec.compress.output=true; #决定了 阅读全文
posted @ 2018-12-05 15:11 才华充电中 阅读(1505) 评论(0) 推荐(0) 编辑
摘要: 一、数据倾斜的原因 数据倾斜就是由于数据分布不均匀,数据大量集中到一点上,造成数据热点。在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的 阅读全文
posted @ 2018-09-12 15:56 才华充电中 阅读(552) 评论(0) 推荐(0) 编辑
摘要: 决策树(Decision Tree)是一种被广泛使用的分类算法,在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。 在实际应用中,对于探测式的知识发现,决策树更加适用。 一、算法定义 决策树是 阅读全文
posted @ 2018-09-10 16:29 才华充电中 阅读(713) 评论(0) 推荐(0) 编辑
上一页 1 ··· 6 7 8 9 10 11 12 13 14 下一页