大数据 - 随笔分类 - 凌度

机器学习

摘要：Mitchell对机器学习的定义：一个计算机程序，它在某一个task里面，根据以前的经验experience，可以通过计算来提高performance。总结一下就是：在一定的场景里面，我们定义一个指标，如果我们有标记好的数据，也就是样本，然后通过计算得到一个模型。模型的输入是样本，输出是预测的概率。阅读全文

posted @ 2020-01-08 10:16 凌度阅读(329) 评论(0) 推荐(0)

数据仓库和数据湖

摘要：早期的数据库系统的设计目标是事务处理。数据库系统是为记录更新和事务处理而设计，数据的访问的特点是基于主键，大量原子，隔离的小事务，并发和可恢复是关键属性，最大事务吞吐量是关键指标，因此数据库的设计都反映了这些需求。数据仓库的设计目标是决策支持。历史的，摘要的，聚合的数据比原始的记录重要的多。查询负阅读全文

posted @ 2019-12-18 10:45 凌度阅读(1291) 评论(0) 推荐(0)

tornado多进程模式不同进程写不同日志

摘要：#coding: utf-8 ''' Author: Time: Target: ''' import logging import logging.handlers import os import json import tornado.httpserver import tornado.ioloop import tornado.web from tornado.option... 阅读全文

posted @ 2019-09-26 10:43 凌度阅读(1037) 评论(0) 推荐(0)

jdbc批量写入

摘要：jdbc加了rewriteBatchedStatements=true就可以提升很多倍，阅读全文

posted @ 2019-09-10 11:40 凌度阅读(371) 评论(0) 推荐(0)

java查看线程的堆栈信息

摘要：通过使用jps 命令获取需要监控的进程的pid，然后使用jstack pid 命令查看线程的堆栈信息。通过jstack 命令可以获取当前进程的所有线程信息。每个线程堆中信息中，都可以查看到线程ID、线程的状态（wait、sleep、running 等状态）、是否持有锁信息等。阅读全文

posted @ 2019-08-29 10:11 凌度阅读(8495) 评论(0) 推荐(0)

使用MSCK命令修复Hive表分区

摘要：通常是通过alter table add partition方式增加Hive的分区的，但有时候会通过HDFS put/cp命令往表目录下拷贝分区目录，如果目录多，也可以用这个语句替代执行多条alter语句。阅读全文

posted @ 2019-08-19 17:47 凌度阅读(1612) 评论(0) 推荐(0)

hive匹配中文

摘要：select regexp_extract('ab中文123测试55。。', '[\u4e00-\u9fa5]+', 0) 只提出成功第一段中文汉字，结果为：中文 select regexp_replace('ab中文123测试55。。', '[\u4e00-\u9fa5]+', "") 只去掉了阅读全文

posted @ 2019-05-22 17:01 凌度阅读(698) 评论(0) 推荐(0)

Flink开发环境搭建（maven）

摘要：1、下载scala sdk http://www.scala-lang.org/download/ 直接到这里下载sdk，(https://downloads.lightbend.com/scala/2.12.8/scala-2.12.8.msi) 2、下载scala for intellij id 阅读全文

posted @ 2019-03-01 10:23 凌度阅读(2464) 评论(0) 推荐(0)

Flink安装部署

摘要：官网：https://ci.apache.org/projects/flink/flink-docs-release-1.7/ops/deployment/cluster_setup.html cd /data1/downloadtar xzf flink-*.tgzcd flink-1.7.2 b 阅读全文

posted @ 2019-02-28 09:13 凌度阅读(253) 评论(0) 推荐(0)

合并hive/hdfs小文件

摘要：磁盘： heads/sectors/cylinders，分别就是磁头/扇区/柱面，每个扇区512byte（现在新的硬盘每个扇区有4K）文件系统：文件系统不是一个扇区一个扇区的来读数据，太慢了，所以有了block（块）的概念，它是一个块一个块的读取的，block才是文件存取的最小单位。文件系统中阅读全文

posted @ 2019-01-04 17:20 凌度阅读(5437) 评论(0) 推荐(0)

NoSql图形数据库

摘要：NoSQL数据库可以按照它们的数据模型分成4类：图数据库源起欧拉和图理论，也可称为面向/基于图的数据库，对应的英文是Graph Database。图数据库的基本含义是以“图”这种数据结构存储和查询数据，而不是存储图片的数据库。它的数据模型主要是以节点和关系（边）来体现，也可处理键值对。它的优点是快阅读全文

posted @ 2019-01-02 15:34 凌度阅读(1176) 评论(0) 推荐(0)

hive数据类型

摘要：复杂类型包括ARRAY,MAP,STRUCT,UNION，这些复杂类型是由基础类型组成的。 ARRAY：ARRAY类型是由一系列相同数据类型的元素组成，这些元素可以通过下标来访问。比如有一个ARRAY类型的变量fruits，它是由['apple','orange','mango']组成，那么我们可以阅读全文

posted @ 2017-11-08 15:44 凌度阅读(1313) 评论(0) 推荐(0)

hive类型转化错误，会错误提示指定分区参数

摘要：select * from TRAD_LIST t WHERE t.dt >= '2017-10-18' and t.dt <= '2017-11-01' and t.con_level = 'a' -- 这个字段类型是数字 LIMIT 10; FAILED: SemanticException Queries against partitioned tables withou... 阅读全文

posted @ 2017-11-08 15:16 凌度阅读(3024) 评论(0) 推荐(0)

hive计算周一的日期

摘要：FreeMarker 阅读全文

posted @ 2017-09-12 11:22 凌度阅读(4098) 评论(0) 推荐(1)

hdfs底层存储分隔符

摘要：'\r'是回车，'\n'是换行，前者使光标到行首，后者使光标下移一格，通常敲一个回车键，即是回车，又是换行（\r\n）。Unix中每行结尾只有“<换行>”，即“\n”；Windows中每行结尾是“<换行><回车>”，即“\n\r”；Mac中每行结尾是“<回车>”。阅读全文

posted @ 2017-08-15 17:26 凌度阅读(1730) 评论(0) 推荐(0)

hive优化

摘要：USE VECTORIZATION 矢量查询(Vectorized query) 每次处理数据时会将1024行数据组成一个batch进行处理，而不是一行一行进行处理，这样能够显著提高执行速度。可以通过设置开启来。具体请参考： [1] https://cwiki.apache.org/conflu 阅读全文

posted @ 2017-06-15 17:56 凌度阅读(628) 评论(0) 推荐(0)

hive创建orc表，使用LLAP查询

摘要：create table if not exists test_orc( name string, age int, address string ) partitioned by (dt string)STORED AS ORC; set hive.execution.engine=tez; se 阅读全文

posted @ 2017-06-15 17:54 凌度阅读(2380) 评论(0) 推荐(0)

Hive快捷查询:不启用Mapreduce job启用Fetch task

摘要：启用MapReduce Job是会消耗系统开销的。对于这个问题，从Hive0.10.0版本开始，对于简单的不需要聚合的类似SELECT <col> from <table> LIMIT n语句，不需要起MapReduce job，直接通过Fetch task获取数据阅读全文

posted @ 2017-04-27 09:29 凌度阅读(262) 评论(0) 推荐(0)

GPU

摘要：import tensorflow as tf a = tf.constant([1.0,2.0,3.0,4.0,5.0,6.0],shape=[2,3],name='a') b = tf.constant([1.0,2.0,3.0,4.0,5.0,6.0],shape=[3,2],name='b') c = tf.matmul(a,b) sess = tf.Session(confi... 阅读全文

posted @ 2017-04-13 12:02 凌度阅读(201) 评论(0) 推荐(0)

hive的select重命名字段显示成中文

摘要：用tab键上面的反引号阅读全文

posted @ 2017-03-10 16:05 凌度阅读(4678) 评论(0) 推荐(0)

随笔分类 - 大数据