摘要: 今天用SQL Server尝试实现一个SQL语句的时候,报了如标题所示的错误,通过在百度里面搜索,并亲自动手实现,终于发现问题所在,现在把它记录下来。 语句如下: select [OrderID],[ProductID], min(UnitPrice) as MinUnitPrice into NewDetails FROM [Northwind]... 阅读全文
posted @ 2012-07-18 21:40 Core Hua 阅读(13063) 评论(1) 推荐(2) 编辑
摘要: 这是一道从网上找来的题,据说是Alibaba2011年数据分析师招聘的题目,现在SQL Server下解答。 题目如下: 根据要求写出SQL 表A结构如下: Member_ID(用户的ID,字符型) Log_time(用户访问页面时间,日期型(只有一天的数据)) URL(访问的页... 阅读全文
posted @ 2012-07-18 20:28 Core Hua 阅读(2705) 评论(0) 推荐(0) 编辑
摘要: Trie树的定义 Trie树又称字典树,单词查找树或者键树,是一种哈希树的变种。它是一种用于快速检测的多叉树结构,如英文字母的Trie树是一个26叉树结构,数字的Trie树是一个10叉树结构。Trie的核心思想是空间换时间,利用字符串的公共前缀降低查询时间的开销以达到提高效率的目的。 Trie词来源于单词Retrieve,既可以发tree的音,也可以发try的音。 Trie树可以利用字符串的公共前缀来节约存储空间。如下图所示给出字符串"abc","ab","bd","dda",根据该字符串序列构建一棵Trie树: 阅读全文
posted @ 2012-07-18 10:42 Core Hua 阅读(237) 评论(0) 推荐(0) 编辑
摘要: Bloom Filter是由Burton Bloom于一九七零年在《Space/time trade-offs in Hash Coding with Errors》中提出的。Bloom Filter实际上有很多修改版本,Bloom本人提出的版本被称为Standard Bloom Filter。 初始状态时,Bloom Filter是一个包含m位的一个位数组,每一位都置为0。 下面通过一个例子来说明Bloom过滤器的原理。 假定我们存储一亿个电子邮件地址(用哈希表实现的具体办法是将每一个email地址对应成一个八字节的信息指纹(数学之美系列13) http://www.google.co... 阅读全文
posted @ 2012-07-18 00:38 Core Hua 阅读(624) 评论(0) 推荐(1) 编辑
摘要: 当一个问题的规模很大时,直接求解往往比较困难。对于这类问题,很大一部分是可以采取分而治之的思想来处理的。 分治法是把问题划分成多个子问题来进行处理。这些子问题,在结构上跟原来的问题一样,但是规模比原来的问题要小。如果得到的子问题还是比较大,那么可以接着细分,一直细分到可以接受的程度为止。这样就可以用迭代的方法,分别求解这些子问题,最后再将子问题的解组合起来,就可以得到原问题的解。分治法的设计原理 对于一个规模为n的问题P(n),可以将它分解成k个规模较小的子问题,这些子问题互相独立,且结构跟原问题的结构相同。在解这些问题的时候,又可以对每一个子问题进行进一步的分解,直到某一个阈值n0时为止。. 阅读全文
posted @ 2012-07-17 19:31 Core Hua 阅读(828) 评论(1) 推荐(1) 编辑
摘要: SAS是现今非常流行的数据分析和数据挖掘软件,想从事数据分析行业,掌握SAS很有必要。虽然SAS本身提供了丰富的人机交互界面,通过手动调用各个Menu能方便地完成数据统计分析的任务,但是,通过代码来调用各个功能模块无疑能为工作带来巨大的灵活性,并显著提高效率。 本文主要是根据网上找到的一个电子文档《SAS语句简介》(可能是某本书的其中一章)以及朱世武老师的《SAS编程技术... 阅读全文
posted @ 2012-07-17 10:48 Core Hua 阅读(14568) 评论(2) 推荐(1) 编辑
摘要: 1. 给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url?方案1:可以估计每个文件安的大小为50G×64=320G,远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。s 遍历文件a,对每个url求取,然后根据所取得的值将url分别存储到1000个小文件(记为)中。这样每个小文件的大约为300M。s 遍历文件b,采取和a相同的方式将url分别存储到1000各小文件(记为)。这样处理后,所有可能相同的url都在对应的小文件()中,不对应的小文件不可能有相同的url。然后我们只要求出1000对小 阅读全文
posted @ 2012-07-17 10:47 Core Hua 阅读(841) 评论(0) 推荐(0) 编辑
摘要: 1) 首先,你安装的时候必须选择了中文和英文两种语言。 2) 其实,如果想切换启动的缺省语言,可以修改配置文件(例如: C:\Program Files\SAS\SAS 9.1\SASV9.CFG): 中文启动,修改为: -CONFIG "C:\Program Files\SAS\SAS 9.1\nls\zh\SASV9,CFG" 英文启动,修改为: -CONFIG "C:\Program Files\SAS\SAS 9.1\nls\en\SASV9,CFG" 阅读全文
posted @ 2012-07-16 14:29 Core Hua 阅读(1181) 评论(0) 推荐(1) 编辑
摘要: 按照《Hadoop开发者入门》中的介绍来进行安装,基本上没什么问题。1.配置ssh的localhost的时候出错 由于在windows下,同时也遇到了win7下的一个共同问题,那就是在配置SSH登陆的时候,在CygWin中输入ssh localhost命令的时候,会出现“Connection to LocalHost Closed By ::1”的错误。这个问题在《入门》里面是没有很好解决的,并且链接中所指向的那个帖子似乎也没有什么有用的信息(可能是对我们这些菜鸟来说吧)。 通过问谷歌和度娘,发现有一篇帖子里面提到的方法能够解决这个问题(至少在我的机器上如此,当然,那个作者的机器上应该也解决. 阅读全文
posted @ 2012-07-13 02:00 Core Hua 阅读(438) 评论(0) 推荐(0) 编辑
摘要: 当程序需要一个特定于语言环境的资源时(如 String),程序可以从适合当前用户语言环境的资源包中加载它。使用这种方式,可以编写很大程度上独立于用户语言环境的程序代码,它将资源包中大部分(即便不是全部)特定于语言环境的信息隔离开来。 这个很像Delphi语言中的ResourceString。这使编写的程序可以: 轻松地本地化或翻译成不同的语言一次处理多个语言环境以后可以轻松进行修改,以便支持更多的语言环境 这个类的作用就是读取资源属性文件(properties),然后根据.properties文件的名称信息(本地化信息),匹配当前系统的国别语言信息(也可以程序指定),然后获取相应的prop.. 阅读全文
posted @ 2012-06-29 01:21 Core Hua 阅读(225) 评论(0) 推荐(0) 编辑