摘要: 调研背景项目中要对指定的网络资源进行抓取、存储、分类、索引、并提供检索服务。充当全文检索数据库的是Apache组织下的开源项目Lucene检索工具,而Lucene只是个搜索引擎工具,它提供API接口,通过编写程序对信息进行索引和检索,在其后台需要网络爬虫程序的支持,其目的是通过网络爬虫软件抓取网页,作为提供给Lucene搜索引擎的资源,进行索引和查询。调研对象Nutchhttp://nutch.apache.org/Heritrixhttp://crawler.archive.org/NutchNutch是Apache基金会的一个开源项目,它原本是开源文件索引框架Lucene项目的一个子项目, 阅读全文
posted @ 2012-03-14 12:58 星语心愿~ 阅读(780) 评论(0) 推荐(0) 编辑
摘要: android网络应用程序开发中,经常要判断网络连接是否可用,因此经常有必要监听网络状态的变化。android的网络状态监听可以用BroadcastReceiver来接收网络状态改变的广播,具体实现如下:BroadcastReceiver mNetworkStateReceiver = new BroadcastReceiver() { @Override public void onReceive(Context context, Intent intent) { Log.e(TAG, "网络状态改变"); boolean success = false; //获得网络连 阅读全文
posted @ 2012-03-14 12:51 星语心愿~ 阅读(241) 评论(0) 推荐(0) 编辑
摘要: 本问转自:http://cloud.dlmu.edu.cn/cloudsite/index.php?action-viewnews-itemid-123-php-1[1] Zhou AY. Data intensive computing-challenges of data management techniques. Communications of CCF, 2009,5(7):50.53 (in Chinese with English abstract).[2] Cohen J, Dolan B, Dunlap M, Hellerstein JM, Welton C. MAD sk 阅读全文
posted @ 2012-03-14 12:48 星语心愿~ 阅读(263) 评论(0) 推荐(0) 编辑
摘要: http://special.csdn.net/bdclive/index.html你们都懂的.. 阅读全文
posted @ 2012-03-14 12:47 星语心愿~ 阅读(104) 评论(0) 推荐(0) 编辑
摘要: 在这个云计算热炒的时代,如果你没有处理过海量数据的话,你将不再是个合格的Coder。现在赶紧补补吧~前一阵子分析了一个将近1TB的数据群(gz文件,压缩率10%)。因为第一次分析如此巨大的数据,没有经验,所以浪费了许多时间。下面是我整理的一些经验,方便后者。欢迎各种补充,我会不断更新这篇文章;觉得有用的话,速度分享链接;有不同意见的话,请果断拍砖;下载数据Q:怎么自动下载多个文件?这是我遇到的第一个问题。当数据量很大时,一般都会分成很多个文件存放。这时下载文件比较麻烦。A:用Wget命令。Windows下花费一点时间去下载安装。但之于手动下载,能省不少时间。我提供两种方式方式下载文件,a)用W 阅读全文
posted @ 2012-03-14 12:45 星语心愿~ 阅读(216) 评论(0) 推荐(0) 编辑
摘要: Creating Shazam in JavaByroyvanrijnOnJune 1, 2010翻译:windviki@gmail.com2010/8/30几天之前,我偶然看到一篇文章:How Shazam Works这让我对shazam这样的程序是如何工作的产生了兴趣,更重要的一点是,(我想知道)用java实现类似的程序会有多难呢?关于ShazamShazam是一款可以用来分析和配对音乐的程序。在手机上安装之后,拿着麦克风朝着音乐聆听大概20-30秒钟,它就能告诉你这是首什么歌曲。我第一次用它的时候,它给了我一种魔法般的感觉。“它怎么做到的?”——甚至直到今天,在使用了如此久之后,我仍然有 阅读全文
posted @ 2012-03-12 18:04 星语心愿~ 阅读(645) 评论(0) 推荐(0) 编辑
摘要: 一、关于工作与生活我有个有趣的观察,外企公司多的是25-35岁的白领,40岁以上的员工很少,二三十岁的外企员工是意气风发的,但外企公司40岁附近的经理人是很尴尬的。我见过的40岁附近的外企经理人大多在一直跳槽,最后大多跳到民企,比方说,唐骏。外企员工的成功很大程度上是公司的成功,并非个人的成功,西门子的确比国美大,但并不代表西门子中国经理比国美的老板强,甚至可以说差得很远。而进外企的人往往并不能很早理解这一点,把自己的成功90%归功于自己的能力,实际上,外企公司随便换个中国区总经理并不会给业绩带来什么了不起的影响。好了问题来了,当这些经理人40多岁了,他们的薪资要求变得很高,而他们的才能其实又 阅读全文
posted @ 2012-03-12 17:57 星语心愿~ 阅读(278) 评论(0) 推荐(0) 编辑
摘要: View Code package arrays.file;import java.io.BufferedReader;import java.io.BufferedWriter;import java.io.FileNotFoundException;import java.io.FileReader;import java.io.FileWriter;import java.io.IOException;import java.util.Collections;import java.util.Iterator;import java.util.LinkedList;import java 阅读全文
posted @ 2012-03-12 17:39 星语心愿~ 阅读(378) 评论(0) 推荐(0) 编辑
摘要: View Code 1 package arrays.file; 2 import java.io.BufferedReader; 3 import java.io.BufferedWriter; 4 import java.io.FileReader; 5 import java.io.FileWriter; 6 import java.io.IOException; 7 public class WriteFile { 8 public static void main(String[] args) { 9 String path = "d:/data.txt";10 阅读全文
posted @ 2012-03-12 17:36 星语心愿~ 阅读(311) 评论(0) 推荐(0) 编辑
摘要: Weka的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),是一款免费的,非商业化(与之对应的是SPSS公司商业数据挖掘产品--Clementine )的,基于JAVA环境下开源的机器学习(machine learning)以及数据挖掘(data minining)软件。它和它的源代码可在其官方网站下载。有趣的是,该软件的缩写WEKA也是New Zealand独有的一种鸟名,而Weka的主要开发者同时恰好来自New Zealand的the University of Waikato。 WEKA作为一个公开的数据挖掘工作平台,集合. 阅读全文
posted @ 2012-03-05 10:29 星语心愿~ 阅读(548) 评论(0) 推荐(0) 编辑