oifengo

摘要： MapReduce原理分而治之，将一个大的任务拆分成很多小的子任务(map)，并行执行后，合并结果(reduce)。 MapReduce 运行流程1 Job&Task 一个job会被拆分成多个Task Task又分为MapTaskReduceTask JobTrack... 阅读全文

posted @ 2018-07-29 16:36 oifengo 阅读(194) 评论(0) 推荐(0)

摘要： HDFS简介Hadoop的文件系统设计结构1 Block(块) HDFS将文件分配成block来存储，每个块默认64MB，块是文件存储处理的逻辑单元，按照block管理 2 NameNode 管理节点，存放元数据文件与数据块的映射表数据块与数据节点的映射表 HDFS... 阅读全文

posted @ 2018-07-28 22:40 oifengo 阅读(240) 评论(0) 推荐(0)

摘要：现在的大数据已经成为了Hadoop生态的天下HIVE 可以不用编写复杂程序需要要编写sql语句功能：把sql语句转化为Hadoop任务去执行HABSE ：存储结构化数据的分布式数据库和传统关系型数据库不同：放弃事物特性追求高拓展和HDFS对比：数据的随机... 阅读全文

posted @ 2018-07-28 21:21 oifengo 阅读(321) 评论(0) 推荐(0)

摘要： Hadoop是什么开源的分布式存储+分布式计算平台 Hadoop目前作为Apache的顶级项目http://hadoop.apache.org/Hadoop的功能HDFS +MapReduceHDFS分布式存储系统，存储海量的数据MapReduce并行处理框架，实... 阅读全文

posted @ 2018-07-28 21:08 oifengo 阅读(1173) 评论(0) 推荐(0)

摘要：无处不在的大数据随着科技的发展，数据越来越多，也越来越有价值。更有形象的描述：数据就是未来的石油。云端的服务器也越多，也是未来的发展方向。越来越多的企业把数据存储在云端，并从中获取有用的价值。马云多次强调;alibaba是一家数据公司！！！如何对数据进行存储... 阅读全文

posted @ 2018-07-28 20:55 oifengo 阅读(336) 评论(0) 推荐(0)

摘要：采用Model1（jsp+javabean）实现DBHelper类创建实体类创建业务逻辑类（dao）DBHelper类的设计package util;import java.sql.Connection;import java.sql.DriverManager;pu... 阅读全文

posted @ 2018-07-26 12:03 oifengo 阅读(1416) 评论(0) 推荐(0)

摘要：有些网站需要登录后才能爬取到有用的信息，Scrapy先模拟登录，再进行信息爬取。登录实质理解登录的实质，跟踪一次登录操作http://example.webscraping.com/ 页面的表单对应的HTML的《form》,log in会根据form元素的内容发送一... 阅读全文

posted @ 2018-07-17 11:43 oifengo 阅读(322) 评论(0) 推荐(0)

摘要： Scrapy从入门到精通系列前四篇已经讲了从网页中获取信息的方法，除此之外，爬虫也可以从网页中下载图片、视频、word、pdf、压缩包等FilesPipeline和ImagePipelineScarpy框架内部提供了这两个Item Pipeline专门用来下载文件和图... 阅读全文

posted @ 2018-07-15 15:14 oifengo 阅读(490) 评论(0) 推荐(0)

摘要：项目实战url = http://books.toscrape.com页面分析scrapy shell U R L> scrapy shell URL>可以使用户在交互式命令行下操作一个Scrapy，通常用来进行前期爬取实验，提高开发效率scrapy shell h... 阅读全文

posted @ 2018-07-05 13:55 oifengo 阅读(464) 评论(0) 推荐(0)

摘要：使用Item封装数据前两篇博客介绍了从页面中提取数据的方法，现在用item封装爬取到的数据Item和FieldScrapy提供了Item和Field类，可以用他们自定义数据类，封装爬取到的数据Item ：自定义数据类(BookItem)的基类Field：描述自定义数据... 阅读全文

posted @ 2018-07-04 09:53 oifengo 阅读(762) 评论(0) 推荐(0)