摘要:
为org.apache.hadoop.io.compress等的分析预留位置 阅读全文
摘要:
由于Hadoop的MapReduce和HDFS都有通信的需求,需要对通信的对象进行序列化。Hadoop并没有采用Java的序列化,而是引入了它自己的系统。 org.apache.hadoop.io中定义了大量的可序列化对象,他们都实现了Writable接口。实现了Writable接口的一个典型例子如下: java代码 1 public class MyWritable implements Writable { 2 // Some data 3 private int counter; 4 ... 阅读全文
摘要:
下面给出了Hadoop的包的功能分析。PackageDependencestool提供一些命令行工具,如DistCp,archivemapreduceHadoop的Map/Reduce实现filecache提供HDFS文件的本地缓存,用于加快Map/Reduce的数据访问速度fs文件系统的抽象,可以理解为支持多种文件系统实现的统一文件访问接口hdfsHDFS,Hadoop的分布式文件系统实现ipc一个简单的IPC的实现,依赖于io提供的编解码功能参考:http://zhangyu8374.javaeye.com/blog/86306io表示层。将各种数据编码/解码,方便于在网络上传输net.. 阅读全文
摘要:
Google的核心竞争技术是它的计算平台。Google的大牛们用了下面5篇文章,介绍了它们的计算设施。 GoogleCluster Chubby GFS BigTable MapReduce 很快,Apache上就出现了一个类似的解决方案,目前它们都属于Apache的Hadoop项目,对应的分别是: Chubby-->ZooKeeper GFS-->HDFS BigTable-->HBase MapReduce-->Hadoop 目前,基于类似思想的Open Source项目还很多,如Facebook用于用户分析的Hive。 HDFS作为一个分布式文件... 阅读全文
摘要:
打开一个网页,就能编辑多种声音效果,创建独一无二的个性化音乐或铃声。这里推荐7个在线音频编辑器网站,功能强大,各具特色。(1)Aviary Myna Audio Editor推荐指数★★★★☆Myna能轻松制作混音、编辑音轨、音频剪辑、应用音效、录制人声或乐器声音。可以上传声音文件或者从在线音频库搜索声音素材进行编辑,编辑完成的音频可以下载或者在线分享。(2)Makeownringtone推荐指数★★★Makeownringtone支持上传mp3, wma, ogg音频文件,编辑各种专业效果,编辑完成可以下载到电脑,或者生成WAP链接,或者生成和弦铃声。(3)DubStep Studio推荐指 阅读全文
摘要:
Audio / Video 是HTML5的重头戏,做Web前端的难免要和音视频文件打交道,浏览器的群雄并立,对于音视频的支持格式相当不统一,通常要为同一份音视频准备3到4种不同的格式,好用的免费的转换软件就是必须必的了。此类免费软件中,国货皆无耻,大家请绕行。我这里推荐的几款是我从Google找到,并且自己用过,还觉得不错的。(1)来自freemake.com的Free Audio Converter和Free Video ConverterFree Audio Converter支持MP3, WMA, WAV, FLAC, AAC, M4A, OGG等30多种音频格式,支持从DVD, H.2 阅读全文
摘要:
1 聚焦爬虫工作原理及关键技术概述 网络爬虫是一个自动提取网页的程序,它为搜索引擎从Internet网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止,另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索.. 阅读全文
摘要:
5 Java带偏好的爬虫示例 在上一节中,我们已经指出,可以使用优先级队列(PriorityQueue)来实现这个带偏好的爬虫。在深入讲解之前,我们首先介绍优先级队列。 优先级队列是一种特殊的队列,普通队列中的元素是先进先出的,而优先级队列则是根据进入队列中的元素的优先级进行出队列操作。例如操作系统的一些优先级进程管理等,都可以使用优先级队列。优先级队列也有最小优先级队列和最大优先级队列两种。 理论上,优先级队列可以是任何一种数据结构,线性的和非线性的,也可以是有序的或无序的。针对有序的优先级队列而言,获取最小或最大的值是非常容易的,但是插入却非常困难;而对于无序的有衔接队列而言,插... 阅读全文
摘要:
4 带偏好的爬虫 有时,在URL队列中选择需要抓取的URL时,不一定按照队列“先进先出”的方法进行选择。而把重要的URL先从队列中“挑”出来进行抓取。这种策略也称作“页面选择”(Page Selection)。这可以使有限的网络资源照顾重要性高的网页。 那么哪些网页是重要性高的网页呢? 判断网页的重要性的因素很多,主要有链接的欢迎度(知道链接的重要性了吧)、链接的重要度和平均链接深度、网站质量、历史权重等主要因素。 链接的欢迎度主要是由反向链接(backlinks,即指向当前URL的链接)的数量和质量决定的,我们定义为IB(P)。 链接的重要度,是一个关于URL字符串的函数,仅仅考察... 阅读全文
摘要:
Django 是一款高性能的Python web框架,鼓励快速开发和干净、务实的设计。 Django 项目是一个定制框架,它源自一个在线新闻 Web 站点,于 2005 年以开源的形式被释放出来。Django的重点是尽可能地自动化,坚持DRY原则。下面介绍4款基于Django 框架的开源项目:1、CMS 建站系统Django-CmsDjango-Cms 是一款基于Django框架开发的 CMS 建站系统。主要特点是简单易用,性能高。2、开源内容管理平台Mezzanine一个开源的内容管理平台,建立在Django框架上,,包括web版本和移动版本。更多见Mezzanine 文档,Mezzanin 阅读全文