Batys - 博客园

工具系列之Sublime Text 3 使用总结

2014-12-10 21:30 by Batys, 922 阅读, 0 推荐, 收藏,

摘要：1、Sublime Text 2/3如何支持中文GBK编码（解决中文乱码） Sublime Text默认是只支持UTF8的编码，所以有些时候，当我们打开GBK文件时候，文件内会出先部分的乱码，如下图所示： sublime text 3不支持中文GBK编码，在编辑一些GBK编码的文件时就会出现乱码... 阅读全文

0 Comment

Oracle中执行存储过程call和exec区别

2014-07-30 17:14 by Batys, 8280 阅读, 0 推荐, 收藏,

摘要：在sqlplus中这两种方法都可以使用：exec pro_name(参数1..);call pro_name(参数1..);区别：1. 但是exec是sqlplus命令，只能在sqlplus中使用；call为SQL命令，没有限制.2. 存储过程没有参数时,exec可以直接跟过程名（可以省略()），但... 阅读全文

0 Comment

storm学习之入门篇（二）

2014-07-10 09:21 by Batys, 284 阅读, 0 推荐, 收藏,

摘要：Strom的简单实现Spout的实现对文件的改变进行分开的监听，并监视目录下有无新日志文件添加。在数据得到了字段的说明后，将其转换成tuple。声明Spout和Bolt之间的分组，并决定tuple发送给Bolt的途径。Spout中open、nextTuple和delcareOutputFields方... 阅读全文

0 Comment

storm学习之入门篇（一）

2014-07-09 20:58 by Batys, 689 阅读, 0 推荐, 收藏,

摘要：海量数据处理使用的大多是鼎鼎大名的hadoop或者hive，作为一个批处理系统，hadoop以其吞吐量大、自动容错等优点，在海量数据处理上得到了广泛的使用。但是，hadoop不擅长实时计算，因为它天然就是为批处理而生的，这也是业界一致的共识。否则最近这两年也不会有s4,storm,puma这些实时计... 阅读全文

0 Comment

大数据基础知识：分布式计算、服务器集群[zz]

2014-04-22 14:13 by Batys, 843 阅读, 0 推荐, 收藏,

摘要：大数据中的数据量非常巨大，达到了PB级别。而且这庞大的数据之中，不仅仅包括结构化数据（如数字、符号等数据），还包括非结构化数据（如文本、图像、声音、视频等数据）。这使得大数据的存储，管理和处理很难利用传统的关系型数据库去完成。在大数据之中，有价值的信息往往深藏其中。这就需要对大数据的处理速度要非常快... 阅读全文

0 Comment

weblogic 12c 配置jvm的内存大小

2014-02-11 16:01 by Batys, 25209 阅读, 1 推荐, 收藏,

摘要：每个weblogic server 都是运行在一个java虚拟机上，对weblogic的内存设置也就是对java虚拟机的内存设置。MEM_ARGS=-Xms512m -Xmx1024m -XX:MaxPermSize=128m-Xms512m表示jvm内存下限为512m-Xmx512m表示jvm内存上限为1024m-XX:MaxPermSize=128m表示永久内存为128m我们主要设置的为jvm内存，永久内存设置为128m或者256m即可。设置jvm内存时，根据经验32位机器最大可启动1.8G内存的jvm，64位机器最大可启动3G内存的jvm；而在设置上下限的时候最好将两者设为一致，以避免阅读全文

0 Comment

JamCam创业故事：辞掉工作，去开发一个应用

2014-01-01 09:45 by Batys, 468 阅读, 0 推荐, 收藏,

摘要：编者按：这是JamCam创始人的自述。这家初创公司提供的应用很简单，但是极为成功：有了JamCam，你所录制的视频会自动添加你正在iPhone中聆听的音乐，作为视频的背景音乐。和朋友分享时是不是方便多了？它在发布第一周下载量就超过了5000次。而它的创始人的故事，则开始于在谷歌上的自学。自发学习：完全是好奇心的驱使大学毕业后的一年，我在多伦多市郊的一家小公司工作，做一名视听技术顾问。这个公司承接了一些非常酷的项目，包括设计电影院外形和给大型建筑消音。过去的这个夏天，每个周四中午吃饭前的一小时，我都要坐在办公桌前，完成这周的报告，但我很苦恼。并不是苦恼报告的提交截止日期，而是苦恼于根本无法集中注阅读全文

0 Comment

数据挖掘-关联规则分析[ZZ]

2013-11-08 18:21 by Batys, 1916 阅读, 0 推荐, 收藏,

摘要：1.什么是关联规则"尿布与啤酒"的故事大家都有听过，这里就不罗嗦了。按常规思维，尿布与啤酒风马牛不相及，若不是借助数据挖掘技术对大量交易数据进行挖掘分析，沃尔玛是不可能发现数据内在这一有价值的规律的。数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性，就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数，即使知道也是不确定的，因此关联分析生成的规则带有可信度。关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。Agrawal等于1993年首先提出了挖掘顾客阅读全文

0 Comment

十道海量数据处理面试题与十个方法大总结(转载)

2013-09-21 19:19 by Batys, 290 阅读, 0 推荐, 收藏,

摘要：第一部分、十道海量数据处理面试题1、海量日志数据，提取出某日访问百度次数最多的那个IP。首先是这一天，并且是访问百度的日志中的IP取出来，逐个写入到一个大文件中。注意到IP是32位的，最多有个2^32个IP。同样可以采用映射的方法，比如模1000，把整个大文件映射为1000个小文件，再找出每个小文中出现频率最大的IP（可以采用hash_map进行频率统计，然后再找出频率最大的几个）及相应的频率。然后再在这1000个最大的IP中，找出那个频率最大的IP，即为所求。或者如下阐述（雪域之鹰）：算法思想：分而治之+Hash1.IP地址最多有2^32=4G种取值情况，所以不能完全加载到内存中处理；2. 阅读全文

0 Comment

设计模式简单说明

2013-09-20 10:39 by Batys, 287 阅读, 0 推荐, 收藏,

摘要：设计模式：一个设计模式描述了一个被证实可行的方案。这些方案非常普遍，是具有完整定义的最常用的模式。一般模式有4个基本要素：模式名称（pattern name）、问题（problem）、解决方案（solution）、效果（consequences）。常见23种模式概述： 1）抽象工厂模式（Abstract Factory）：提供一个创建一系列相关或相互依赖对象的接口，而无需指定它们具体的类。 2）适配器模式（Adapter）：将一个类的接口转换成客户希望的另外一个接口。适配器模式使得原本由于接口不兼容而不能一起工作的类可以一起工作。 3）桥梁模式（Bridge）：将抽象部分与它的... 阅读全文

0 Comment

Fat Uncle