摘要: http://www.cnblogs.com/cyq1162/archive/2010/04/18/1349062.html很久以前,写过一个手机的搜索查询,这里要涉及到手机类型和型号的分离。 很久之后前,有人问起这个问题,于是,写点说明就把这函数的草稿发布了,并写下了这一些说明。 函数说明,如搜索输入:诺基亚N95,将被拆分成品牌:诺基亚 型号:N95 对于手机数据采集,也可以用这函数分离出品牌... 阅读全文
posted @ 2010-04-27 22:34 searchDM 阅读(260) 评论(0) 推荐(0) 编辑
摘要: 大数据量的过滤 (用于爬虫,蜘蛛) Bloom Filter 布隆过滤器想像一下.如果你有一个非常大的无序的数据(url连接) 并且你要保证同样的一条连接不会在其它地方再次出现 你实时的收集哪些数据,你没有办法来预防两个相同的url出现,再不断增加的数据当中. 当这些数据是少的时候你可以轻松的创建一个list(dictonary or hashtable 或者你自已的数据结构)然后遍历它们,看它... 阅读全文
posted @ 2010-04-27 22:28 searchDM 阅读(480) 评论(0) 推荐(0) 编辑
摘要: Lucene基础排序算法改进 Lucene基础排序算法: score_d = sum_t(tf_q * idf_t / norm_q * tf_d * idf_t / norm_dt_t) score_d: Document(d) 的得分 sum_t: Term(t) 的总和 tf_q: 查询中 t 的频度的平方根 tf_q: d 中 t 的频度的平方根 idf_t: log(numDocs/d... 阅读全文
posted @ 2010-04-27 22:21 searchDM 阅读(415) 评论(0) 推荐(0) 编辑
摘要: 在一份给定的文件里,词频 (term frequency, TF) 指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被正规化,以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词频,而不管该词语重要与否。)对于在某一特定文件里的词语 ti 来说,它的重要性 可表示为: Tfi,j=ni,j/Σnk,j 以上式子中 ni,j是该词在文件dj中的出现次数,而分... 阅读全文
posted @ 2010-04-27 22:19 searchDM 阅读(241) 评论(0) 推荐(0) 编辑
摘要: 谈谈BM25评分1 什么是BM25 摘录一段wiki BM25 is a bag-of-words retrieval function that ranks a set of documents based on the query terms appearing in each document, regardless of the inter-relationship between the... 阅读全文
posted @ 2010-04-27 22:18 searchDM 阅读(538) 评论(0) 推荐(0) 编辑
摘要: MonetDB 改变用户默认口令让mserver启动在命令交互模式下,输入 clients.changePassword("old_pass","new_pass"); 应该是MAPI支持的功能 http://homepages.cwi.nl/~mk/MonetDB/MAL-Instructions.htmlhttp://hi.baidu.com/kissdev/blog/item/568f1... 阅读全文
posted @ 2010-04-27 22:14 searchDM 阅读(309) 评论(0) 推荐(0) 编辑
摘要: 下面是Hadoop使用过程中常见错误及解决方法的汇总 (英文部分会后续转为中文) 1. Too many open files错误 有時候 Map Reduce 的工作跑一跑,會發現 datanode 突然都陣亡,去看 log 會發現很多 Too many open files 的錯誤: 2008-09-11 20:20:22,836 ERROR org.apache.hadoop.dfs.Da... 阅读全文
posted @ 2010-04-27 22:12 searchDM 阅读(1087) 评论(0) 推荐(0) 编辑
摘要: MapReduce 1. Map: (K, V) -> (K', V') 2. 合并相同K'值的项 (K', V') -> (K', V' *) 3. Reduce (K', V'*) -> 新的(K,V) Hadoop实现自动的 Fail-over, Redistribute M/R tasks Hadoop为Master/Slave结构 1 Master ( ... 阅读全文
posted @ 2010-04-27 22:12 searchDM 阅读(457) 评论(0) 推荐(0) 编辑
摘要: Hadoop脚本:重新初始化所有节点在Hadoop集群调试的初期,经常需要重新初始化HDFS,下面的脚本可以实现此点 #!/usr/bin/php <?php require_once '/home/hadoop/bin/common/hadoop.inc'; $masters = f2a(HADOOP_HOME . '/conf/masters'); $slaves = f2a(HA... 阅读全文
posted @ 2010-04-27 22:11 searchDM 阅读(729) 评论(0) 推荐(0) 编辑
摘要: 还是PHP当道,自动从Hadoop集群的所有节点的Log中发现异常(ERROR),并打印出来 其中作法很简单,ssh到每个节点上用grep搜索,使用PHP的SSH2扩展库 #!/usr/bin/php <?php require_once '/home/hadoop/bin/common/hadoop.inc'; function check_log($host, $match, $key... 阅读全文
posted @ 2010-04-27 22:10 searchDM 阅读(288) 评论(0) 推荐(0) 编辑
摘要: 为方便用Streaming方式使用Hadoop,使用如下的脚本map_reduce.sh -------------------------------------- #!/bin/bash if [ $# -lt 3 ] then echo "Usage: map_reduce.sh <input> <output> <mapper> [reducer] [... 阅读全文
posted @ 2010-04-27 22:10 searchDM 阅读(326) 评论(0) 推荐(0) 编辑
摘要: Hadoop是一个海量数据处理平台, 以下是非常高质量的学习Hadoop的入门文章 : 1. InfoQ上的分布式计算开源框架Hadoop介绍 分为三章,系统性的介绍了Hadoop , HDFS结构、集群配置方法和编程。 2. IBM DeveloperWorks上的教程:用 Hadoop 进行分布式并行编程 ,也Hadoop Eclipse Plugin.是分为三部分(如果你找不到其他两部分,... 阅读全文
posted @ 2010-04-27 22:09 searchDM 阅读(619) 评论(0) 推荐(0) 编辑
摘要: Hadoop:你所不知道的一些相关项目根据Hadoop Wiki上的说法很多公司都在用Hadoop,但是并没有多少可实质上借鉴的代码 而下面这些开源的基于Hadoop的项目你听说过吗? 0. Hadoop上的机器学习Mahout http://lucene.apache.org/mahout/ 1. Cascading: 类似管道状的工作流包装库,和 Pig 项目类似 http://www... 阅读全文
posted @ 2010-04-27 22:09 searchDM 阅读(353) 评论(0) 推荐(0) 编辑
摘要: 有哪些项目能够PK目前最红的Hadoop? 以下是目前同Hadoop一样实现MapReduce分布式处理模式的项目: 1. Sector, 自己实现了类似GFS的文件系统和处理库,被用于处理TB级的天文数据,参见http://sector.sourceforge.net/ 其自称与Hadoop的PK结果如下: Hadoop Sector Storage Unit Blocks. Better... 阅读全文
posted @ 2010-04-27 22:07 searchDM 阅读(530) 评论(0) 推荐(0) 编辑
摘要: 关于SaaS和Salesforce 过去,传统的软件必须有购买、安装、维护、升级软件等一系列自己建造的方式。但“随需应用”在线租用模式,使用户不再需要购买任何软件包和硬件,只需每年 支付一定费用,就可以通过互联网随时使用自己所需要的服务。同时,企业可以随时开通新账户、增加新的功能模块,软件应用更简单、灵活。这被业内称为 SaaS(Software as a Service... 阅读全文
posted @ 2010-04-27 22:06 searchDM 阅读(700) 评论(0) 推荐(0) 编辑
摘要: 1. Enomalism SourceForge上的开源项目,提供类似Amazon EC2的服务,实际上是一个虚拟机的管理平台 2. Euclyptus http://eucalyptus.cs.ucsb.edu/ UCSB ( University of California, Santa Barbara )的研究项目,提供与 Amazon EC2相同的接口 3. AppDrop http:... 阅读全文
posted @ 2010-04-27 22:06 searchDM 阅读(296) 评论(0) 推荐(0) 编辑
摘要: [ 来自谷歌中国Blog ] 和传统的单机或网络应用模式相比,云计算有四个非常显著的特点。 首先,云计算提供了最可靠、最安全的数据存储中心,用户不用再担心数据丢 失、病毒入侵等麻烦。很多人觉得数据只有保存在自己看得见、摸得着的电脑里才最安全,其实不然。你的电脑可能会因为自己不小心而被损坏,或者被病毒攻击, 导致硬盘上的数据无法恢复,而有机会接触你的电脑的不法之徒则可能利用各种机会窃取你的数据。... 阅读全文
posted @ 2010-04-27 22:05 searchDM 阅读(1720) 评论(0) 推荐(0) 编辑
摘要: [ Hadoop 实战:谁是最倒霉的人? ] 这次尝试用 Hadoop 来写一个简单的应用。要解决的问题是这样的:现在我手里有大量的邮件数据,并且我知道每封邮件是正常邮件还是垃圾邮件,现在我想要找出收到的邮件中垃圾邮 件最多的人,亦即找出“谁是最倒霉的人”。 首先是 Map 的过程,输入数据是一封一封的邮件,彼此之间没有任何关联,因此可以很自然地分组处理。Map 将邮件... 阅读全文
posted @ 2010-04-27 22:05 searchDM 阅读(612) 评论(0) 推荐(0) 编辑
摘要: Hadoop中文文档 ( Aliababa团队翻译 ) http://hadoop.apache.org/core/docs/r0.19.0/cn/quickstart.html 阅读全文
posted @ 2010-04-27 22:04 searchDM 阅读(652) 评论(0) 推荐(0) 编辑
摘要: 两个微型的Map/Reduce框架: FileMap(FM)和BashReduce- FileMap ( http://mfisk.github.com/filemap/ ) 用python写成,只有一个文件,实现了基于文件的并行M/R操作 - 与此异曲同工的是,在bashReduce项目中(http://github.com/erikfrey/bashreduce/tree/master )... 阅读全文
posted @ 2010-04-27 22:04 searchDM 阅读(459) 评论(0) 推荐(0) 编辑