机器学习
摘要:Mitchell对机器学习的定义:一个计算机程序,它在某一个task里面,根据以前的经验experience,可以通过计算来提高performance。总结一下就是:在一定的场景里面,我们定义一个指标,如果我们有标记好的数据,也就是样本,然后通过计算得到一个模型。模型的输入是样本,输出是预测的概率。
阅读全文
posted @
2020-01-08 10:16
凌度
阅读(314)
推荐(0) 编辑
数据仓库和数据湖
摘要:早期的数据库系统的设计目标是事务处理。数据库系统是为记录更新和事务处理而设计,数据的访问的特点是基于主键,大量原子,隔离的小事务,并发和可恢复是关键属性,最大事务吞吐量是关键指标,因此数据库的设计都反映了这些需求。 数据仓库的设计目标是决策支持。历史的,摘要的,聚合的数据比原始的记录重要的多。查询负
阅读全文
posted @
2019-12-18 10:45
凌度
阅读(1212)
推荐(0) 编辑
tornado多进程模式不同进程写不同日志
摘要:#coding: utf-8 ''' Author: Time: Target: ''' import logging import logging.handlers import os import json import tornado.httpserver import tornado.ioloop import tornado.web from tornado.option...
阅读全文
posted @
2019-09-26 10:43
凌度
阅读(1004)
推荐(0) 编辑
jdbc批量写入
摘要:jdbc加了rewriteBatchedStatements=true就可以提升很多倍,
阅读全文
posted @
2019-09-10 11:40
凌度
阅读(357)
推荐(0) 编辑
java查看线程的堆栈信息
摘要:通过使用jps 命令获取需要监控的进程的pid,然后使用jstack pid 命令查看线程的堆栈信息。 通过jstack 命令可以获取当前进程的所有线程信息。 每个线程堆中信息中,都可以查看到线程ID、线程的状态(wait、sleep、running 等状态)、是否持有锁信息等。
阅读全文
posted @
2019-08-29 10:11
凌度
阅读(8448)
推荐(0) 编辑
使用MSCK命令修复Hive表分区
摘要:通常是通过alter table add partition方式增加Hive的分区的,但有时候会通过HDFS put/cp命令往表目录下拷贝分区目录,如果目录多,也可以用这个语句替代执行多条alter语句。
阅读全文
posted @
2019-08-19 17:47
凌度
阅读(1584)
推荐(0) 编辑
hive匹配中文
摘要:select regexp_extract('ab中文123测试55。。', '[\u4e00-\u9fa5]+', 0) 只提出成功第一段中文汉字,结果为: 中文 select regexp_replace('ab中文123测试55。。', '[\u4e00-\u9fa5]+', "") 只去掉了
阅读全文
posted @
2019-05-22 17:01
凌度
阅读(680)
推荐(0) 编辑
Flink开发环境搭建(maven)
摘要:1、下载scala sdk http://www.scala-lang.org/download/ 直接到这里下载sdk,(https://downloads.lightbend.com/scala/2.12.8/scala-2.12.8.msi) 2、下载scala for intellij id
阅读全文
posted @
2019-03-01 10:23
凌度
阅读(2452)
推荐(0) 编辑
Flink安装部署
摘要:官网:https://ci.apache.org/projects/flink/flink-docs-release-1.7/ops/deployment/cluster_setup.html cd /data1/downloadtar xzf flink-*.tgzcd flink-1.7.2 b
阅读全文
posted @
2019-02-28 09:13
凌度
阅读(232)
推荐(0) 编辑
合并hive/hdfs小文件
摘要:磁盘: heads/sectors/cylinders,分别就是磁头/扇区/柱面,每个扇区512byte(现在新的硬盘每个扇区有4K) 文件系统: 文件系统不是一个扇区一个扇区的来读数据,太慢了,所以有了block(块)的概念,它是一个块一个块的读取的,block才是文件存取的最小单位。 文件系统中
阅读全文
posted @
2019-01-04 17:20
凌度
阅读(5383)
推荐(0) 编辑
NoSql图形数据库
摘要:NoSQL数据库可以按照它们的数据模型分成4类: 图数据库源起欧拉和图理论,也可称为面向/基于图的数据库,对应的英文是Graph Database。图数据库的基本含义是以“图”这种数据结构存储和查询数据,而不是存储图片的数据库。它的数据模型主要是以节点和关系(边)来体现,也可处理键值对。它的优点是快
阅读全文
posted @
2019-01-02 15:34
凌度
阅读(1150)
推荐(0) 编辑
hive数据类型
摘要:复杂类型包括ARRAY,MAP,STRUCT,UNION,这些复杂类型是由基础类型组成的。 ARRAY:ARRAY类型是由一系列相同数据类型的元素组成,这些元素可以通过下标来访问。比如有一个ARRAY类型的变量fruits,它是由['apple','orange','mango']组成,那么我们可以
阅读全文
posted @
2017-11-08 15:44
凌度
阅读(1298)
推荐(0) 编辑
hive类型转化错误,会错误提示指定分区参数
摘要:select * from TRAD_LIST t WHERE t.dt >= '2017-10-18' and t.dt <= '2017-11-01' and t.con_level = 'a' -- 这个字段类型是数字 LIMIT 10; FAILED: SemanticException Queries against partitioned tables withou...
阅读全文
posted @
2017-11-08 15:16
凌度
阅读(2999)
推荐(0) 编辑
hdfs底层存储分隔符
摘要:'\r'是回车,'\n'是换行,前者使光标到行首,后者使光标下移一格,通常敲一个回车键,即是回车,又是换行(\r\n)。Unix中每行结尾只有“<换行>”,即“\n”;Windows中每行结尾是“<换行><回车>”,即“\n\r”;Mac中每行结尾是“<回车>”。
阅读全文
posted @
2017-08-15 17:26
凌度
阅读(1713)
推荐(0) 编辑
hive优化
摘要:USE VECTORIZATION 矢量查询(Vectorized query) 每次处理数据时会将1024行数据组成一个batch进行处理,而不是一行一行进行处理,这样能够显著提高执行速度。可以通过设置 开启来。 具体请参考: [1] https://cwiki.apache.org/conflu
阅读全文
posted @
2017-06-15 17:56
凌度
阅读(609)
推荐(0) 编辑
hive创建orc表,使用LLAP查询
摘要:create table if not exists test_orc( name string, age int, address string ) partitioned by (dt string)STORED AS ORC; set hive.execution.engine=tez; se
阅读全文
posted @
2017-06-15 17:54
凌度
阅读(2362)
推荐(0) 编辑
Hive快捷查询:不启用Mapreduce job启用Fetch task
摘要:启用MapReduce Job是会消耗系统开销的。对于这个问题,从Hive0.10.0版本开始,对于简单的不需要聚合的类似SELECT <col> from <table> LIMIT n语句,不需要起MapReduce job,直接通过Fetch task获取数据
阅读全文
posted @
2017-04-27 09:29
凌度
阅读(254)
推荐(0) 编辑
GPU
摘要:import tensorflow as tf a = tf.constant([1.0,2.0,3.0,4.0,5.0,6.0],shape=[2,3],name='a') b = tf.constant([1.0,2.0,3.0,4.0,5.0,6.0],shape=[3,2],name='b') c = tf.matmul(a,b) sess = tf.Session(confi...
阅读全文
posted @
2017-04-13 12:02
凌度
阅读(195)
推荐(0) 编辑