虾皮 - 博客园

2018年3月20日

摘要：论文内容：待整理参考文献： An Architecture for Fast and General Data Processing on Large Clusters. Matei Zaharia 大型集群上的快速和通用数据处理架构阅读全文

posted @ 2018-03-20 15:00 虾皮阅读(1440) 评论(0) 推荐(0)

Spark 论文篇-RDD：一种为内存化集群计算设计的容错抽象（中英双语）

摘要：论文内容：待整理参考文献： Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing. Matei Zaharia, Mosharaf Chowdhury, Tatha 阅读全文

posted @ 2018-03-20 14:28 虾皮阅读(2057) 评论(0) 推荐(0)

Spark 论文篇-Spark：工作组上的集群计算的框架（中英双语）

摘要：论文内容：待整理参考文献： Spark: Cluster Computing with Working Sets. Matei Zaharia, Mosharaf Chowdhury, Michael J. Franklin, Scott Shenker, Ion Stoica. HotClou 阅读全文

posted @ 2018-03-20 14:22 虾皮阅读(3689) 评论(0) 推荐(0)

Spark源码分析系列（目录）

摘要：记录自己学习研究 Spark 的探索过程，为后续总结奠定基础。本文代码研究以 Spark 2.3.0 源代码为基准，如果看本文，请阅读时，下载对应的 Spark 版本。图1 伯克利的数据分析软件栈BDAS（Berkeley Data Analytics Stack）这里要先说BDAS（伯克利数阅读全文

posted @ 2018-03-20 14:08 虾皮阅读(14749) 评论(0) 推荐(0)

2014年4月28日

Nutch搜索引擎（第4期）_ Eclipse开发配置

摘要： 1、环境准备1.1 本期引言前三期分别介绍了Nutch与Solr在Linux上面的安装，并做了简单的应用，这一期从开发的角度进行，因为我们日常最熟悉的开发环境是Windows，所以本期详细介绍Windows平台的Nutch二次开发所需要进行的配置安装。当我们开发好之后，最后在部署到Linux环境中。... 阅读全文

posted @ 2014-04-28 09:12 虾皮阅读(11966) 评论(3) 推荐(10)

2014年4月14日

Nutch搜索引擎（第3期）_ Nutch简单应用

摘要： 1、Nutch命令详解Nutch采用了一种命令的方式进行工作，其命令可以是对局域网方式的单一命令也可以是对整个Web进行爬取的分步命令。要看Nutch的命令说明，可执行"Nutch"命令。下面是单个命令的说明：crawlcrawl是"org.apache.nutch.crawl.Crawl"的别称，... 阅读全文

posted @ 2014-04-14 11:03 虾皮阅读(9601) 评论(1) 推荐(3)

2014年3月26日

Nutch搜索引擎（第2期）_ Solr简介及安装

摘要： 1、Solr简介 Solr是一个高性能，采用Java5开发，基于Lucene的全文搜索服务器。同时对其进行了扩展，提供了比Lucene更为丰富的查询语言，同时实现了可配置、可扩展并对查询性能进行了优化，并且提供了一个完善的功能管理界面，是一款非常优秀的全文搜索引擎。 Solr最初由CNET Networks开发，2006 年初，Apache Software Foundation 在Lucene顶级项目的支持下得到了Solr。Solr于2007年1月酝酿成熟，在整个项目孵化期间，Solr稳步地积累各种特性并吸引了一个稳定的用户群体、贡献者和提交人。Solr 现在是 Lucene（Apach.. 阅读全文

posted @ 2014-03-26 12:08 虾皮阅读(7419) 评论(3) 推荐(3)

2014年3月21日

Nutch搜索引擎系列（目录）

摘要：下面是Nutch搜索系列目录，希望对研究Nutch的同学有所帮助。目录安排： 1）Nutch搜索引擎（第1期）_ Nutch简介及安装[下载] 2）Nutch搜索引擎（第2期）_ Solr简介及安装[下载] 3）Nutch搜索引擎（第3期）_ Nutch简单应用 4）Nutch搜索引擎（第4期）_ 阅读全文

posted @ 2014-03-21 13:23 虾皮阅读(7269) 评论(4) 推荐(1)

Nutch搜索引擎（第1期）_ Nutch简介及安装

摘要： 1、Nutch简介 Nutch是一个由Java实现的，开放源代码（open-source）的web搜索引擎。主要用于收集网页数据，然后对其进行分析，建立索引，以提供相应的接口来对其网页数据进行查询的一套工具。其底层使用了Hadoop来做分布式计算与存储，索引使用了Solr分布式索引框架来做，Solr是一个开源的全文索引框架，从Nutch 1.3开始，其集成了这个索引架构。 Nutch目前最新的版本为version1.4。1.1 Nutch的目标 Nutch 致力于让每个人能很容易，同时花费很少就可以配置世界一流的Web搜索引擎。为了完成这一宏伟的目标，Nutch必须能够做到：每个月取几十... 阅读全文

posted @ 2014-03-21 12:19 虾皮阅读(36811) 评论(5) 推荐(19)

2012年7月13日

暑假期间学习不错的网网页

摘要： 1、[NHibernate] Guid 作主键速度超慢的背后地址：http://www.cnblogs.com/1-2-3/archive/2011/07/12/nhibernate-guid-key-performance.html 阅读全文

posted @ 2012-07-13 21:42 虾皮阅读(1434) 评论(0) 推荐(1)

公告