posts - 535,comments - 60,views - 197万

随笔分类 -  大数据

1 2 3 下一页
hadoop/spark/hive
机器学习
摘要:Mitchell对机器学习的定义:一个计算机程序,它在某一个task里面,根据以前的经验experience,可以通过计算来提高performance。总结一下就是:在一定的场景里面,我们定义一个指标,如果我们有标记好的数据,也就是样本,然后通过计算得到一个模型。模型的输入是样本,输出是预测的概率。 阅读全文
posted @ 2020-01-08 10:16 凌度 阅读(314) 评论(0) 推荐(0) 编辑
数据仓库和数据湖
摘要:早期的数据库系统的设计目标是事务处理。数据库系统是为记录更新和事务处理而设计,数据的访问的特点是基于主键,大量原子,隔离的小事务,并发和可恢复是关键属性,最大事务吞吐量是关键指标,因此数据库的设计都反映了这些需求。 数据仓库的设计目标是决策支持。历史的,摘要的,聚合的数据比原始的记录重要的多。查询负 阅读全文
posted @ 2019-12-18 10:45 凌度 阅读(1212) 评论(0) 推荐(0) 编辑
tornado多进程模式不同进程写不同日志
摘要:#coding: utf-8 ''' Author: Time: Target: ''' import logging import logging.handlers import os import json import tornado.httpserver import tornado.ioloop import tornado.web from tornado.option... 阅读全文
posted @ 2019-09-26 10:43 凌度 阅读(1004) 评论(0) 推荐(0) 编辑
jdbc批量写入
摘要:jdbc加了rewriteBatchedStatements=true就可以提升很多倍, 阅读全文
posted @ 2019-09-10 11:40 凌度 阅读(357) 评论(0) 推荐(0) 编辑
java查看线程的堆栈信息
摘要:通过使用jps 命令获取需要监控的进程的pid,然后使用jstack pid 命令查看线程的堆栈信息。 通过jstack 命令可以获取当前进程的所有线程信息。 每个线程堆中信息中,都可以查看到线程ID、线程的状态(wait、sleep、running 等状态)、是否持有锁信息等。 阅读全文
posted @ 2019-08-29 10:11 凌度 阅读(8448) 评论(0) 推荐(0) 编辑
使用MSCK命令修复Hive表分区
摘要:通常是通过alter table add partition方式增加Hive的分区的,但有时候会通过HDFS put/cp命令往表目录下拷贝分区目录,如果目录多,也可以用这个语句替代执行多条alter语句。 阅读全文
posted @ 2019-08-19 17:47 凌度 阅读(1584) 评论(0) 推荐(0) 编辑
hive匹配中文
摘要:select regexp_extract('ab中文123测试55。。', '[\u4e00-\u9fa5]+', 0) 只提出成功第一段中文汉字,结果为: 中文 select regexp_replace('ab中文123测试55。。', '[\u4e00-\u9fa5]+', "") 只去掉了 阅读全文
posted @ 2019-05-22 17:01 凌度 阅读(680) 评论(0) 推荐(0) 编辑
Flink开发环境搭建(maven)
摘要:1、下载scala sdk http://www.scala-lang.org/download/ 直接到这里下载sdk,(https://downloads.lightbend.com/scala/2.12.8/scala-2.12.8.msi) 2、下载scala for intellij id 阅读全文
posted @ 2019-03-01 10:23 凌度 阅读(2452) 评论(0) 推荐(0) 编辑
Flink安装部署
摘要:官网:https://ci.apache.org/projects/flink/flink-docs-release-1.7/ops/deployment/cluster_setup.html cd /data1/downloadtar xzf flink-*.tgzcd flink-1.7.2 b 阅读全文
posted @ 2019-02-28 09:13 凌度 阅读(232) 评论(0) 推荐(0) 编辑
合并hive/hdfs小文件
摘要:磁盘: heads/sectors/cylinders,分别就是磁头/扇区/柱面,每个扇区512byte(现在新的硬盘每个扇区有4K) 文件系统: 文件系统不是一个扇区一个扇区的来读数据,太慢了,所以有了block(块)的概念,它是一个块一个块的读取的,block才是文件存取的最小单位。 文件系统中 阅读全文
posted @ 2019-01-04 17:20 凌度 阅读(5383) 评论(0) 推荐(0) 编辑
NoSql图形数据库
摘要:NoSQL数据库可以按照它们的数据模型分成4类: 图数据库源起欧拉和图理论,也可称为面向/基于图的数据库,对应的英文是Graph Database。图数据库的基本含义是以“图”这种数据结构存储和查询数据,而不是存储图片的数据库。它的数据模型主要是以节点和关系(边)来体现,也可处理键值对。它的优点是快 阅读全文
posted @ 2019-01-02 15:34 凌度 阅读(1150) 评论(0) 推荐(0) 编辑
hive数据类型
摘要:复杂类型包括ARRAY,MAP,STRUCT,UNION,这些复杂类型是由基础类型组成的。 ARRAY:ARRAY类型是由一系列相同数据类型的元素组成,这些元素可以通过下标来访问。比如有一个ARRAY类型的变量fruits,它是由['apple','orange','mango']组成,那么我们可以 阅读全文
posted @ 2017-11-08 15:44 凌度 阅读(1298) 评论(0) 推荐(0) 编辑
hive类型转化错误,会错误提示指定分区参数
摘要:select * from TRAD_LIST t WHERE t.dt >= '2017-10-18' and t.dt <= '2017-11-01' and t.con_level = 'a' -- 这个字段类型是数字 LIMIT 10; FAILED: SemanticException Queries against partitioned tables withou... 阅读全文
posted @ 2017-11-08 15:16 凌度 阅读(2999) 评论(0) 推荐(0) 编辑
hive计算周一的日期
摘要:FreeMarker 阅读全文
posted @ 2017-09-12 11:22 凌度 阅读(4080) 评论(0) 推荐(1) 编辑
hdfs底层存储分隔符
摘要:'\r'是回车,'\n'是换行,前者使光标到行首,后者使光标下移一格,通常敲一个回车键,即是回车,又是换行(\r\n)。Unix中每行结尾只有“<换行>”,即“\n”;Windows中每行结尾是“<换行><回车>”,即“\n\r”;Mac中每行结尾是“<回车>”。 阅读全文
posted @ 2017-08-15 17:26 凌度 阅读(1713) 评论(0) 推荐(0) 编辑
hive优化
摘要:USE VECTORIZATION 矢量查询(Vectorized query) 每次处理数据时会将1024行数据组成一个batch进行处理,而不是一行一行进行处理,这样能够显著提高执行速度。可以通过设置 开启来。 具体请参考: [1] https://cwiki.apache.org/conflu 阅读全文
posted @ 2017-06-15 17:56 凌度 阅读(609) 评论(0) 推荐(0) 编辑
hive创建orc表,使用LLAP查询
摘要:create table if not exists test_orc( name string, age int, address string ) partitioned by (dt string)STORED AS ORC; set hive.execution.engine=tez; se 阅读全文
posted @ 2017-06-15 17:54 凌度 阅读(2362) 评论(0) 推荐(0) 编辑
Hive快捷查询:不启用Mapreduce job启用Fetch task
摘要:启用MapReduce Job是会消耗系统开销的。对于这个问题,从Hive0.10.0版本开始,对于简单的不需要聚合的类似SELECT <col> from <table> LIMIT n语句,不需要起MapReduce job,直接通过Fetch task获取数据 阅读全文
posted @ 2017-04-27 09:29 凌度 阅读(254) 评论(0) 推荐(0) 编辑
GPU
摘要:import tensorflow as tf a = tf.constant([1.0,2.0,3.0,4.0,5.0,6.0],shape=[2,3],name='a') b = tf.constant([1.0,2.0,3.0,4.0,5.0,6.0],shape=[3,2],name='b') c = tf.matmul(a,b) sess = tf.Session(confi... 阅读全文
posted @ 2017-04-13 12:02 凌度 阅读(195) 评论(0) 推荐(0) 编辑
hive的select重命名字段显示成中文
摘要:用tab键上面的反引号 阅读全文
posted @ 2017-03-10 16:05 凌度 阅读(4644) 评论(0) 推荐(0) 编辑

1 2 3 下一页
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

点击右上角即可分享
微信分享提示