摘要: 最近几年IT技术的发展真的是日新月异,什么云计算、大数据、机器学习、AI等等名词层出不穷。多数程序员内心其实是恐慌的,我也时常会感到危机感。每每看到“xx培训,大数据就业,钱景好”我嘴上说不要,身体还是很诚实的。 大数据已经深入我们的生活当中,今天呢我们也不聊4个V(Volume 规模大、Varit 阅读全文
posted @ 2018-08-21 00:19 叁金 阅读(203) 评论(0) 推荐(0) 编辑
摘要: Hadoop 基础知识 大数据已经火了很长很长时间了,从最开始是个公司都说自己公司的数据量很大,我们在搞大数据。到现在大数据真的已经非常成熟并且已经在逐渐的影响我们的生产生活。你可能听过支付宝的金融大数据,滴滴的出行大数据以及其他的诸如气象大数据等等,我们每个人都是数据的制造者,以后又将享受大数据技 阅读全文
posted @ 2017-12-07 16:43 叁金 阅读(193) 评论(0) 推荐(0) 编辑
摘要: HDFS 读写流程 我们知道在HDFS中我们的文件按数据块进行存储,那么当我们写入或者读取一个文件的时候HDFS到底进行了哪些操作呢? HDFS 写流程 如上图所示,假如我们有一个四个节点的集群,并且我们将数据备份个数设置成3个。当我们写入一个文件到HDFS集群的时候: 1. 首先,HDFS Cli 阅读全文
posted @ 2017-12-07 16:43 叁金 阅读(154) 评论(0) 推荐(0) 编辑
摘要: 自动部署?Ambari Ambari 跟 Hadoop 等开源软件一样,也是 Apache Software Foundation 中的一个项目,并且是顶级项目。就 Ambari 的作用来说,就是创建、管理、监视 Hadoop 的集群,但是这里的 Hadoop 是广义,指的是 Hadoop 整个生态 阅读全文
posted @ 2017-12-07 16:42 叁金 阅读(1466) 评论(0) 推荐(0) 编辑
摘要: 本文旨在快速搭建一套Hadoop及HBase的分布式环境,自己测试玩玩的话ok,如果真的要搭一套集群建议还是参考下ambari吧,目前正在摸索该项目中。下面先来看看怎么快速搭建一套分布式环境。 准备 1. 三台虚拟机:1台作为NameNode和HMaster 两台作为DataNode和HRegion 阅读全文
posted @ 2017-12-07 16:41 叁金 阅读(308) 评论(0) 推荐(0) 编辑
摘要: 总结 国际惯例,先总结下去年情况。去年实在是坎坷的一年。。。 用一句话概况:4月份之前我在做c# wpf开发,4月到10月我在做python后台开发,11月份到现在虽然职位是python工程师但是做的是java开发。 浪的飞起。。。 找工作说好找也好找,说不好找 找个工资给力,距离ok,公司牛逼的还 阅读全文
posted @ 2017-02-08 10:42 叁金 阅读(2087) 评论(18) 推荐(13) 编辑
摘要: 好久不更新博客了。。。 之前的博文都是通过urllib2进行http访问,接下来我要说一个利器啊!requests模块,无法用语言对他进行赞扬了,需要的,有兴趣的,可以去了解下,移步官方中文文档: Requests: 让 HTTP 服务人类 简直是不要太刁。。。 这篇博文呢,主要是将之前博文中用ur 阅读全文
posted @ 2016-08-01 17:57 叁金 阅读(1057) 评论(0) 推荐(0) 编辑
摘要: 初窥Scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。 还是先推荐几个学习的教程:Scrapy 0.25文档 Scrapy快速入门教程 这些教程里面有关于Scrapy的安装,创建项目,爬取实例等等,如果 阅读全文
posted @ 2016-01-25 18:07 叁金 阅读(3008) 评论(0) 推荐(0) 编辑
摘要: 通过几天的学习与尝试逐渐对python爬虫有了一些小小的心得,我们渐渐发现他们有很多共性,总是要去获取一系列的链接,读取网页代码,获取所需内容然后重复上面的工作,当自己运用的越来越熟练之后我们就会尝试着去总结一下爬虫的共性,试着去写个helper类以避免重复性劳动。 参考:用python爬虫抓站的一 阅读全文
posted @ 2016-01-20 16:58 叁金 阅读(4330) 评论(3) 推荐(4) 编辑
摘要: 我又来送福利啦!!!不同于上篇文章,这次我们的爬虫采用了多线程,一直以来被所谓的分布式 多线程 爬虫 给唬的怕怕的。今天就来一发多线程爬虫吧,还能看妹子图,想想就觉得很激动!!! 依然是流程解释: 1.分析要爬取的网址,发现页面分两级,第一级是多个图片集的入口,第二集是图片的入口。我们新建两... 阅读全文
posted @ 2016-01-20 10:52 叁金 阅读(12104) 评论(5) 推荐(3) 编辑