摘要:/** * 使用正则表达式来判断字符串中是否包含字母 * @param str 待检验的字符串 * @return 返回是否包含 * true: 包含字母 ;false 不包含字母 */ ...
阅读全文
摘要:Apache Kafka 是一種发布-订阅消息的分布式系统.能够将消息归类为不同主题.应用程序能在Kafka上发布信息,或订阅主题进而接受特定主题下发布的消息.Producer发布消息,而Consumer收集并处理消息.作为分布式系统,Kafka在集群中运行...
阅读全文
摘要:-- 查询当前哪个表被锁select sess.sid, sess.serial#, lo.oracle_username, lo.os_user_name, ao.object_name, lo.locked_mod...
阅读全文
摘要:create or replace function strFormatDate(i_datestr in varchar2)return dateisbegin if i_datestr is null or trim(i_datestr) = '' t...
阅读全文
摘要:create or replace function func_float(i_value float)return numberis v_index number := 0; v_str varchar2(1000); v_result n...
阅读全文
摘要:create or replace function numberToDate(i_date in number)return dateis v_date number; result date ;begin v_date :=...
阅读全文
摘要:create or replace function dateToNumber(i_date in date)return numberis result number ;begin result := TO_NUMBER(NVL(TO_...
阅读全文
摘要:getdate()函数连接请戳这里create or replace function getcurrdate(i_date date)return date is v_date date; v_datestr varchar2(10);begi...
阅读全文
摘要:create or replace function getdate(sp_date varchar) return date is Result date;begin if LENGTH(sp_date) =10 then Result:=to_...
阅读全文
摘要:Flume是一种分布式的可靠开源系统,用于流数据的高效收集,聚集和移动.Flume通常用于移动日志数据.但是也能移动大量事件数据.如社交媒体订阅,消息队列事件或者网络流量数据. Flume架构Flume的数据源使用来自外部数据源的时间,然后转发到Chann...
阅读全文
摘要:文件传输特点这是一种all-or-nothing批处理方法,所以如果文件传输过程中出现错误,则不会写入或读取任何数据.这种方法与Flume,Kafka之类的采集方法不同,后者提供一定程度的错误处理功能.并且有传输保障文件传输默认为单线程,不能并行文件传输...
阅读全文
摘要:文件系统中采集数据时,应该考虑以下内容.数据源系统设备的读取速率在所有处理流水线中,磁盘I/O通常都是主要瓶颈.但是优化采集流程时通常要看一下检索数据的系统系统.一般来说,Hadoop的读取速度在20MB/s到100MB/s之间,而且主板或者控制器从系统所有...
阅读全文
摘要:数据采集的时效性,指的是可进行数据采集的时间与Hadoop中工具可访问数量的时间之间的间隔.采集架构的时间分类会对存储媒介和采集方法造成很大的影响.一般来说,在设计应用的采集构架之前建议使用以下分类中的一种.大型批处理通常指15分钟到数小时的任务,有时可...
阅读全文
摘要:元数据的重要性三个重要理由,让我们不得不在意元数据元数据允许用户通过一张表的高一级逻辑抽象,而不是HDFS中文件的简单几何,或者HBase中的表来与数据交互.这意味着用户不比关心数据是如何存储的,存储到了什么地方元数据允许用户提供数据的信息(如分区或者排...
阅读全文
摘要:HBase中包含列簇(column family)的概念.列簇本质上是列的存储容器.一张表可以有一个或多个列簇.每个列簇都有自己的HFile结婚,而且在执行合并操作时,同一个表的其他列簇不受影响在很多实用案例中,一张表不需要多个列簇.如果一张标中国的一部分列...
阅读全文
摘要:影响性能与数据分布的一个因素是HBase中表的数量以及每个表的Region的数量.如果分配的不合理,集群一个节点活多个节点的负载会出现显著的不均衡.其中比较注意的几点: - 每个节点包含一个Region服务器 - 每个Region服务器包含多个Region ...
阅读全文
摘要:要获得良好的HBase的模式设计,要正确的理解和使用时间错.在HBase中,时间戳的作用如下所述.时间戳决定了在put请求修改记录时那些记录更新时间戳决定了一条记录的多个版本在返回时的排序时间戳还用于大合并(Major Compaction)过程,决定是否移...
阅读全文
摘要:和哈希表类比,HBase中的行键类似于哈希表中的键.要构造一个良好的HBase模式,关键之一就是选择一个合适的行键. 1 记录检索行键是HBase中检索记录所使用的键.HBase记录含有的列在数量上没有限制,但是只能有一个行键.这一点同关系型数据库有所不同...
阅读全文
摘要:在设计一种HDFS模式时,首先应该决定文件的位置.标准化的位置会使得团队之间更容易查找和共享数据. 推荐HDFS目录结构实例.目录结构简化了不同组和用户的权限分配/user/{username}只属于特定用户的数据,JAR包和配置文件.通常是用户在试验中使用...
阅读全文
摘要:Hadoop存储数据时需要着重考虑的一个因素就是压缩.这里不仅要满足节省存储空间的需求,也要提升数据处理性能.在处理大量数据时,消耗最大的是磁盘和网络的I/O,所以减少需要读取或者写入磁盘的数据量就能大大缩短整体处理时间.这包括数据源的压缩,它也包括数据处理...
阅读全文
摘要:列式系统可提供的优势对于查询内容之外的列,不必执行I/O和解压(若适用)操作非常适合仅访问小部分列的查询.如果访问的列很多,则行存格式更为合适相比由多行构成的数据块,列内的信息熵更低,所以从压缩角度来看,列式存储通常会非常高效.换句话说,同一列中的数据比...
阅读全文