Fork me on GitHub

随笔分类 -  big data【basic】

hadoop、网络爬虫、Lucene垂直搜索引擎等
摘要:这一篇网络爬虫的实现就要联系上大数据了。在前两篇java实现网络爬虫和heritrix实现网络爬虫的基础上,这一次是要完整的做一次数据的收集、数据上传、数据分析、数据结果读取、数据可视化。 需要用到 Cygwin:一个在windows平台上运行的类UNIX模拟环境,直接网上搜索下载,并且安装; Ha 阅读全文
posted @ 2017-09-25 18:36 sunwengang 阅读(2414) 评论(0) 推荐(0) 编辑
摘要:本篇的思想:对HDFS获取的数据进行两种不同的可视化图表处理方式。第一种JFreeChar可视化处理生成图片文件查看。第二种AJAX+JSON+ECharts实现可视化图表,并呈现于浏览器上。 对此,给出代码示例,通过网络爬虫技术,将上传到HDFS的新浪网新闻信息实现热词统计功能,通过图表的柱状图来 阅读全文
posted @ 2017-08-19 00:00 sunwengang 阅读(1765) 评论(0) 推荐(0) 编辑
摘要:本篇博客是在上一篇《Lucene搜索引擎+HDFS+MR完成垂直搜索》的基础上,在数据收集之后的JSP/Servlet方面,换为SpringMVC框架来实现。 借助SpringMVC技术完成数据库、HDFS、页面的交互,以达到实现垂直搜索引擎。 本篇博客的思想:一是深入数据收集、分析、关键词搜索呈现 阅读全文
posted @ 2017-08-17 22:42 sunwengang 阅读(1877) 评论(0) 推荐(0) 编辑
摘要:介于上一篇的java实现网络爬虫基础之上,这一篇的思想是将网络收集的数据保存到HDFS和数据库(Mysql)中;然后用MR对HDFS的数据进行索引处理,处理成倒排索引;搜索时先用HDFS建立好的索引来搜索对应的数据ID,根据ID从数据库中提取数据,呈现到网页上。 这是一个完整的集合网络爬虫、数据库、 阅读全文
posted @ 2017-08-16 22:28 sunwengang 阅读(2455) 评论(1) 推荐(2) 编辑
摘要:上次用的java相关知识实现了一个简单的网络爬虫,现在存在许多开源免费的爬虫工具,相对来说,可以很简单的获取网页数据,并写入到本地。 下面我就阐述一下我用Heritrix爬虫工具实现网页数据爬取。 > 目录 1、Heritrix文件配置 2、Heritrix服务器job配置 3、如何创建job并执行 阅读全文
posted @ 2017-08-15 16:38 sunwengang 阅读(7004) 评论(0) 推荐(1) 编辑
摘要:接着上面一篇对爬虫需要的java知识,这一篇目的就是在于网络爬虫的实现,对数据的获取,以便分析。 > 目录: 1、爬虫原理 2、本地文件数据提取及分析 3、单网页数据的读取 4、运用正则表达式完成超连接的连接匹配和提取 5、广度优先遍历,多网页的数据爬取 6、多线程的网页爬取 7、总结 爬虫实现原理 阅读全文
posted @ 2017-08-14 00:24 sunwengang 阅读(68809) 评论(23) 推荐(20) 编辑
摘要:本篇对一些常用的java知识做一个整合,三大特性、IO操作、线程处理、类集处理,目的在于能用这些只是实现一个网页爬虫的功能。 Ⅰ 首先对于一个java开发的项目有一个整体性的了解认知,项目开发流程: 项目阶段: 1) 项目准备: a) 根据开会得到会议纪要,了解客户的需求情况 b) 需求分析(需求分 阅读全文
posted @ 2017-08-13 20:32 sunwengang 阅读(2318) 评论(1) 推荐(3) 编辑
摘要:如果说大数据中分布式收集日志用的是什么,你完全可以回答Flume!(面试小心问到哦) 首先说一个复制本服务器文件到目标服务器上,需要目标服务器的ip和密码: 命令: scp filename ip:目标路径 一 概述 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚 阅读全文
posted @ 2017-08-07 09:07 sunwengang 阅读(538) 评论(0) 推荐(0) 编辑
摘要:接着前面的Zookeeper部署之后,现在可以学习HBase了。 HBase是基于Hadoop的开源分布式数据库,它以Google的BigTable为原型,设计并实现了具有高可靠性、高性能、列存储、可伸缩、实时读写的分布式数据库系统,它是基于列而不是基于行的模式,适合存储非结构化数据。 体系结构:H 阅读全文
posted @ 2017-08-06 13:48 sunwengang 阅读(428) 评论(0) 推荐(0) 编辑
摘要:这是一个分布式服务框架,阿帕奇的一个子项目。关于ZooKeeper我只简单的部署一下,以便后面的HBase。 一 概述 ZooKeeper 分布式服务框架是 Apache Hadoop 的一个子项目,主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:统一命名服务、状态同步服务、集群管理、分布 阅读全文
posted @ 2017-08-06 08:59 sunwengang 阅读(562) 评论(0) 推荐(0) 编辑
摘要:一 原理阐述 1' DFS 分布式文件系统(即DFS,Distributed File System),指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。该系统架构于网络之上,势必会引入网络编程的复杂性,因此分布式文件系统比普通磁盘文件系统更为复杂。 2' HDF 阅读全文
posted @ 2017-08-05 18:54 sunwengang 阅读(2569) 评论(0) 推荐(1) 编辑
摘要:一 概述 就像我们所了解的sql一样,Hive也是一种数据仓库,不同的是hive是在hadoop大数据生态圈中所用。这篇博客我主要介绍Hive的简单表运用。 Hive是Hadoop 大数据生态圈中的数据仓库,其提供以表格的方式来组织与管理HDFS上的数据、以类SQL的方式来操作表格里的数据。 Hiv 阅读全文
posted @ 2017-08-05 17:59 sunwengang 阅读(638) 评论(0) 推荐(0) 编辑
摘要:前言: 根据前面的几篇博客学习,现在可以进行MapReduce学习了。本篇博客首先阐述了MapReduce的概念及使用原理,其次直接从五个实验中实践学习(单词计数,二次排序,计数器,join,分布式缓存)。 一 概述 定义 MapReduce是一种计算模型,简单的说就是将大批量的工作(数据)分解(M 阅读全文
posted @ 2017-08-04 20:07 sunwengang 阅读(4153) 评论(0) 推荐(0) 编辑
摘要:一 概述 YARN是一个资源管理、任务调度的框架,采用master/slave架构,主要包含三大模块:ResourceManager(RM)、NodeManager(NM)、ApplicationMaster(AM)。 >ResourceManager负责所有资源的监控、分配和管理,运行在主节点; 阅读全文
posted @ 2017-08-04 18:06 sunwengang 阅读(2467) 评论(0) 推荐(0) 编辑
摘要:八月迷情,这个月会对大数据进行一个快速的了解学习。 一、所需工具简介 首先我是在大数据实验一体机上进行集群管理学习,管理五台实验机,分别为master,slave1,slave2,slave3,client。 此外,学习还涉及到以下工具的使用: 先来介绍下每个工具的作用之处: 1‘ google浏览 阅读全文
posted @ 2017-08-02 16:59 sunwengang 阅读(1795) 评论(0) 推荐(0) 编辑