Fork me on GitHub
摘要: 网站从构建之初的很少有人问津,用户数量较少,并发量较低,到之后的拥有千万上亿用户,数万量级的高并发,之间经历了怎样的过程,小型网站架构是怎样逐步演化的,本文简单探讨下这方面的内容,主要参考《大型网站架构设计》,这本书知识点总结的还是比较全面的。来源:http://www.cnblogs.com/... 阅读全文
posted @ 2015-05-16 17:45 何海洋 阅读(263) 评论(0) 推荐(0) 编辑
摘要: 1、Nutch简介 Nutch是一个由Java实 现的,开放源代码(open-source)的web搜索引擎。主要用于收集网页数据,然后对其进行分析,建立索引,以提供相应的接口来对其网页数据进行 查询的一套工具。其底层使用了Hadoop来做分布式计算与存储,索引使用了Solr分布式索引框架来做,S... 阅读全文
posted @ 2015-05-15 15:35 何海洋 阅读(8260) 评论(0) 推荐(0) 编辑
摘要: 原文:http://www.cnblogs.com/whitewolf/p/4491707.html黄金定律一个项目应该永远遵循同一套编码规范!不管有多少人共同参与同一项目,一定要确保每一行代码都像是同一个人编写的。HTML语法用两个空格来代替制表符(tab) – 这是唯一能保证在所有环境下获得一致... 阅读全文
posted @ 2015-05-12 23:28 何海洋 阅读(327) 评论(0) 推荐(0) 编辑
摘要: 1.词频 TF(term frequency)词频,就是该分词在该文档中出现的频率,算法是:(该分词在该文档出现的次数)/(该文档分词的总数),这个值越大表示这个词越重要,即权重就越大。例如:一篇文档分词后,总共有500个分词,而分词”Hello”出现的次数是20次,则TF值是: tf =20/... 阅读全文
posted @ 2015-05-09 18:49 何海洋 阅读(4650) 评论(0) 推荐(0) 编辑
摘要: Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,MapReduce则为海量的数据提供了计算。 HDFS是Google File System(GFS)的开源实现,MapReduce是Google MapReduce的开源实现。 HDFS和Ma... 阅读全文
posted @ 2015-05-07 12:01 何海洋 阅读(17287) 评论(3) 推荐(9) 编辑
摘要: 1、安装eclipse准备 eclipse-dsl-luna-SR2-linux-gtk-x86_64.tar.gz安装 1、解压文件。 2、创建图标。ln -s /opt/eclipse/eclipse /usr/bin/eclipse #使符号链接目录vim /usr/share... 阅读全文
posted @ 2015-05-05 23:03 何海洋 阅读(7871) 评论(7) 推荐(3) 编辑
摘要: 1、WordCount源码 将源码文件WordCount.java放到Hadoop2.6.0文件夹中。import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configur... 阅读全文
posted @ 2015-05-05 09:09 何海洋 阅读(9537) 评论(5) 推荐(4) 编辑
摘要: 本文仅作为学习笔记,供大家初学Hadoop时学习参考。初学Hadoop,欢迎有经验的朋友进行指导与交流!1、安装CentOS7准备 CentOS系统镜像CentOS-7.0-1406-x86_64-Everything.iso vmware workstation 11安装 1、点击创建一... 阅读全文
posted @ 2015-05-04 21:41 何海洋 阅读(6183) 评论(1) 推荐(3) 编辑
摘要: 在博客园开通博客以后,就看到某位博友写的js自动生成目录的文章,当时觉得生成目录能给阅读带来方便,所以就直接拿来使用了。用了一段时间以后,发现只能生成一级目录,不能生成多级目录,有点美中不足。所以想着自己修改一下代码,实现二级目录甚至三级目录。先附上初始的代码,并且在这感谢那位博友。1、一级目录... 阅读全文
posted @ 2015-04-29 18:58 何海洋 阅读(3421) 评论(4) 推荐(5) 编辑
摘要: 一直都想认真的学习一下Bootstrap,但是由于种种原因,一直没有行动,虽然期间有使用过Bootstrap,但是都没有系统的学习过。最近工作室(学校老师的工作室)安排了一个前端任务让我跟进,主要是根据已有的美工图,用html+css布局出页面,要求使用Bootstrap。正好可以系统的学习一下... 阅读全文
posted @ 2015-04-28 09:41 何海洋 阅读(904) 评论(0) 推荐(0) 编辑
摘要: 一、Maven简介1、什么是Maven?Maven是一个项目管理工具和集成编译工具,它主要包含如下内容:–一个项目对象模型(ProjectObjectModel),–一组标准集合,–一个项目生命周期(ProjectLifecycle),–一个依赖管理系统(DependencyManagementSy... 阅读全文
posted @ 2015-04-27 13:23 何海洋 阅读(350) 评论(0) 推荐(0) 编辑
摘要: 一个小型的网站,比如个人 网站,可以使用最简单的html静态页面就实现了,配合一些图片达到美化效果,所有的页面均存放在一个目录下,这样的网站对系统架构、性能的要求都很简 单,随着互联网业务的不断丰富,网站相关的技术经过这些年的发展,已经细分到很细的方方面面,尤其对于大型网站来说,所采用的技术更是... 阅读全文
posted @ 2015-04-27 09:36 何海洋 阅读(290) 评论(0) 推荐(0) 编辑
摘要: 架构演变第一步:物理分离webserver和数据库 最开始,由于某些想法,于是在互联网上搭建了一个网站,这个时候甚至有可能主机都是租借的,但由于这篇文章我们只关注架构的演变历程,因此就假设这个时候已 经是托管了一台主机,并且有一定的带宽了,这个时候由于网站具备了一定的特色,吸引了部分人访问,逐渐你... 阅读全文
posted @ 2015-04-26 19:54 何海洋 阅读(266) 评论(0) 推荐(0) 编辑
摘要: 以前有一个著名的木桶理论--一个木桶能装多少水,取决于最短的一块板。在工业化时代,这个理论的确非常有效。但是在全球互联网的时代,这个理论实际早已破产。 今天的公司实在没有必要精通一切,如果财务不够专业,可以聘用比自己更有优势的会计师事务所;如果在人力资源上欠缺,可以聘用猎头或者人力资源咨询机构... 阅读全文
posted @ 2015-04-24 14:41 何海洋 阅读(372) 评论(0) 推荐(0) 编辑
摘要: /* Minification failed. Returning unminified contents.(151,61): run-time error CSS1062: Expected semicolon or closing curly-brace, found ')' */#EntryT... 阅读全文
posted @ 2015-04-24 10:33 何海洋 阅读(318) 评论(0) 推荐(0) 编辑