随笔分类 -  大数据

摘要:https://www.cnblogs.com/chaoren399/articles/4749513.html 集群的概念 计算机集群是一种计算机系统, 它通过一组松散集成的计算机软件和/或硬件连接起来高度紧密地协作完成计算工作。 l 集群系统中的单个计算机通常称为节点,通常通过局域网连接。 l 集群技术的特点: 通过多台计算机完成同一个工作。达到更高的效率 两机或多机内容、工作过... 阅读全文
posted @ 2019-04-15 11:01 农民阿姨 阅读(812) 评论(0) 推荐(0) 编辑
摘要:CPA CPS CPA/CPS常见的推广方式 CPA和CPSCPA,CPS CPS与CPA CPA、CPSCPA.CPS产品教 CPA CPS什么意思 CPACPS是什么 1. CPM(Cost per mille),每千次展现收费 这是一种最为常见的广告模式,也是很多网站流量变现的一种途径,这种广 阅读全文
posted @ 2019-04-11 09:47 农民阿姨 阅读(14508) 评论(0) 推荐(0) 编辑
摘要:<!--StartFragment--> 《模式分类(原书第二版)》pdf格式下载电子书免费下载: https://u253469.ctfile.com/fs/253469-302448505 内容简介 《模式分类》(原书第2版)的第1版《模式分类与场景分析》出版于1973年,是模式识别和场景分析领 阅读全文
posted @ 2018-08-27 17:24 农民阿姨 阅读(3392) 评论(0) 推荐(0) 编辑
摘要:一 . 说明 Ganglia由gmond、gmetad和gweb三部分组成 gmond(Ganglia Monitoring Daemon)是一种轻量级服务,安装在每台需要收集指标数据的节点主机上。gmond在每台主机上完成实际意义上的指标数据收集工作,并通过侦听/通告协议和集群内其他节点共享数据。 阅读全文
posted @ 2016-12-28 11:53 农民阿姨 阅读(2762) 评论(0) 推荐(0) 编辑
摘要:1:solr简介 2:solr的特点 3:solr安装部署启动 必须先安装JDK,并设置JAVA_HOME环境变量,jdk的版本不能低于1.7 下载,解压,启动 cd /usr/local tar zxvf solr 4.10.4 cd solr 4.10.4/example java jar st 阅读全文
posted @ 2016-08-08 17:42 农民阿姨 阅读(162) 评论(0) 推荐(0) 编辑
摘要:##################### Elasticsearch Configuration Example ##################### # This file contains an overview of various configuration settings, # targeted at operations staff. Application develo... 阅读全文
posted @ 2016-08-04 14:40 农民阿姨 阅读(1338) 评论(0) 推荐(0) 编辑
摘要:1. 下载 "下载地址" 2. 解压 3. 配置 /conf/elasticsearch.yml {集群的话,就要改下边,不改也可以,只是 es 默认寻找局域网中名字一样的节点进行组装集群. 如果单机测试,无所谓, } cluster.name: esbj node.name: "esbj001" 阅读全文
posted @ 2016-08-04 14:26 农民阿姨 阅读(176) 评论(0) 推荐(0) 编辑
摘要:一.启动命令 tar -zxvf solr-4.10.4.tgzcd solr-4.10.4\examplejava -jar start.jar 默认监听8983端口java -Djetty.port=8980 -jar start.jar 指定端口后台启动:java -DSTOP.PORT... 阅读全文
posted @ 2015-09-22 11:04 农民阿姨 阅读(211) 评论(0) 推荐(0) 编辑
摘要:1.项目架构 2.详细技术点 1.解析,(依赖注入) 2,使用queue队列实现循环抓取 3.实现优先级队列并提取接口 4.使用log4j实现配置检查及日志打印 5.实现多线程爬虫并提取接口 6.实现url调度器 7.使用queue队列实现url随机榨取 8.使用redis队列实现url 随机抓取 10.使用httpclient 实现模拟登录 11.使用curator 监控爬虫的生命周期 1... 阅读全文
posted @ 2015-09-19 21:35 农民阿姨 阅读(3688) 评论(0) 推荐(0) 编辑
摘要:1.内存文件存储系统 Tachyon是一个开源分布式存储系统,拥有高性能、高容错等优点。并具有类Java的文件API、插件式的底层文件系统、兼容Hadoop MapReduce和 Apache Spark 等特征。Tachyon能够为集群框架(如Spark、MapReduce等)提供内存级速度的跨集群文件共享服务,官方号称最高比HDFS吞吐量高300倍。诞生于Berkeley的AMPLab实验室... 阅读全文
posted @ 2015-09-14 10:23 农民阿姨 阅读(160) 评论(0) 推荐(0) 编辑
摘要:1. 匿名内部类: new Car().num = 5; 调用属性无意义 匿名对象使用方式一:当对对象的方法只调用一次时,可以用匿名对象来完成,这样写比较简化。 如果对一个对象进行多个成员调用,必须给这个对象起个名字。 匿名对象使用方式二:可以将匿名对象作为实际参数进行传递。 2.封装: 1.private : 私有,权限修饰符:用于修饰类中的成员(成员变量,成员函数)。私有只在本类中有效。 ... 阅读全文
posted @ 2015-09-08 22:59 农民阿姨 阅读(205) 评论(0) 推荐(0) 编辑
摘要:一、nutch简介 nutch是大名鼎鼎的Doug Cutting发起的爬虫项目,nutch孵化了现在大数据处理框架Hadoop。在nutch V 0.8.0 版本之前,Hadoop是nutch的一部分,从nutch V0.8.0开始,HDFS和MapReduce从nutch中剥离出成为Hadoop。v0.8.0之后,nutch就完全构建在Hadoop的基础之上了。 Nutch是一个开源的网络爬... 阅读全文
posted @ 2015-09-07 20:19 农民阿姨 阅读(729) 评论(0) 推荐(0) 编辑
摘要:Sqoop课程笔记 一、概述 1、什么是sqoop? Hadoop的优势在于对数据的存储和处理,相比以前传统的数据库,在处理较较多的数据时,传统数据行业通过提升单机性能以提高处理性能,而且性价比随着性能提高越来越低,在场景下派生出的大数据行业。 同样的数据处理,hadoop无论是处理的性能和成本都远低于传统通过单机处理,但是从传统的数据处理切换到新生的hadoop平台,避免不了有数据迁移的过程,需... 阅读全文
posted @ 2015-09-05 18:16 农民阿姨 阅读(1230) 评论(0) 推荐(0) 编辑
摘要:一、安装: 1 解压然后把mysql的驱动放在$SQOOP_HOME/lib 目录中2. conf/sqoop-en.sh export HADOOP_COMMON_HOME=/home/hadoop/hadoop/hadoop-2.3.0export HADOOP_MAPRED_HOME=/home/hadoop/hadoop/hadoop-2.3.0 注意事项 1.数据库驱动:在执行s... 阅读全文
posted @ 2015-09-05 09:35 农民阿姨 阅读(2236) 评论(0) 推荐(0) 编辑
摘要:1.pig与hive的区别 pig和hive比较类似的,都是类sql的语言,底层都是依赖于hadoop 走的mapreduce任务。 pig和hive的区别就是,想要实现一个业务逻辑的话,使用pig需要一步一步操作 而使用hive的话一条SQL就可以搞定。 如果想在很短时间内获取一个比较复杂的业务逻辑处理结果的话,建议使用pig。 如果需要定时执行的一些任务,建议使... 阅读全文
posted @ 2015-09-01 21:39 农民阿姨 阅读(3435) 评论(0) 推荐(0) 编辑
摘要:大数据之pig安装 1.下载 pig download 2. 解压安装 mapreduce模式安装: 1:设置HADOOP_HOME,如果pig所在节点不是集群中的节点,那就需要把集群中使用的hadoop的安装包拷贝过来一份。 export HADOOP_HOME=/usr/local/hadoop-2.6.0 2:创建一个文件夹,cluster-conf,里面保存的是hadoo... 阅读全文
posted @ 2015-09-01 09:55 农民阿姨 阅读(299) 评论(0) 推荐(0) 编辑
摘要:0、前期准备修改主机名、ip、iptables关闭;时间同步:ntpdate -s time.windows.com;软件准备ganglia-3.7.1.tar.gz、ganglia-web-3.7.0.tar.gz 地址:http://ganglia.info/?page_id=66confuse-2.7.tar.gz 地址:http://www.nongnu.org/confuse/Pytho... 阅读全文
posted @ 2015-08-31 21:31 农民阿姨 阅读(332) 评论(0) 推荐(0) 编辑
摘要:1.什么是ganglia 一个开源集群监视项目;Ganglia可以做系统监控,但是,目前它不支持服务器异常或故障报警功能。 2.Ganglia监控集群架构 Ganglia 集群主要是由gmond、gmetad、gweb这3个守护进程组成,其中gmetad进程相当于监控集群的master。而多个gmond进程可以进行分组,每个分组其实是一个用来收集监控数据的代理服务集群,也就是说多个gmond... 阅读全文
posted @ 2015-08-31 21:20 农民阿姨 阅读(1413) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示