上一页 1 ··· 9 10 11 12 13 14 15 16 17 ··· 24 下一页
摘要: 产生背景 自 1970 年以来,关系数据库用于数据存储和维护有关问题的解决方案。大数据的出现后, 好多公司实现处理大数据并从中受益,并开始选择像 Hadoop 的解决方案。Hadoop 使用分 布式文件系统,用于存储大数据,并使用 MapReduce 来处理。Hadoop 擅长于存储各种格式 的庞大 阅读全文
posted @ 2018-03-29 11:34 扎心了,老铁 阅读(23861) 评论(4) 推荐(13) 编辑
摘要: 本文参考自https://blog.csdn.net/wo541075754/article/details/69138878?utm_source=gold_browser_extension https://www.cnblogs.com/java-zhao/p/7350945.html 简介 阅读全文
posted @ 2018-03-29 11:33 扎心了,老铁 阅读(43808) 评论(1) 推荐(5) 编辑
摘要: 待添加 阅读全文
posted @ 2018-03-28 18:30 扎心了,老铁 阅读(1546) 评论(0) 推荐(0) 编辑
摘要: 爬虫的四个主要步骤 什么是正则表达式 正则表达式,又称规则表达式,通常被用来检索、替换那些符合某个模式(规则)的文本。 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。 给定一个正 阅读全文
posted @ 2018-03-28 18:29 扎心了,老铁 阅读(1858) 评论(0) 推荐(1) 编辑
摘要: HTTP和HTTPS HTTP协议(HyperText Transfer Protocol,超文本传输协议):是一种发布和接收 HTML页面的方法。 HTTPS(Hypertext Transfer Protocol over Secure Socket Layer)简单讲是HTTP的安全版,在HT 阅读全文
posted @ 2018-03-28 18:27 扎心了,老铁 阅读(10079) 评论(0) 推荐(1) 编辑
摘要: 通用爬虫和聚焦爬虫 根据使用场景,网络爬虫可分为 通用爬虫 和 聚焦爬虫 两种. 通用爬虫 通用网络爬虫 是 捜索引擎抓取系统(Baidu、Google、Yahoo等)的重要组成部分。主要目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。 通用搜索引擎(Search Engine)工作 阅读全文
posted @ 2018-03-28 18:26 扎心了,老铁 阅读(1951) 评论(0) 推荐(0) 编辑
摘要: Python基础 基础教程参考廖雪峰的官方网站https://www.liaoxuefeng.com/ 一、"大数据时代",数据获取的方式 1. 企业生产的用户数据:大型互联网公司有海量用户,所以他们积累数据有天然的优势。 有数据意识的中小型企业,也开始积累的数据。 2. 数据管理咨询公司:通常这样 阅读全文
posted @ 2018-03-28 18:24 扎心了,老铁 阅读(2476) 评论(0) 推荐(0) 编辑
摘要: 前言 python3应该是Python的趋势所在,当然目前争议也比较大,这篇随笔的主要目的是记录在centos6.7下搭建python3环境的过程 以及碰到的问题和解决过程。 另外,如果本机安装了python2,尽量不要管他,使用python3运行python脚本就好,因为可能有程序依赖目前的pyt 阅读全文
posted @ 2018-03-28 18:22 扎心了,老铁 阅读(4754) 评论(1) 推荐(0) 编辑
摘要: 。。。 阅读全文
posted @ 2018-03-28 18:20 扎心了,老铁 阅读(3008) 评论(4) 推荐(0) 编辑
摘要: 一、背景 Hadoop 的设计目的:解决海量大文件的处理问题,主要指大数据的存储和计算问题,其中, HDFS 解决数据的存储问题;MapReduce 解决数据的计算问题 Hadoop 的设计考虑:设计分布式的存储和计算解决方案架构在廉价的集群之上,所以,服 务器节点出现宕机的情况是常态。数据的安全是 阅读全文
posted @ 2018-03-24 16:56 扎心了,老铁 阅读(5009) 评论(0) 推荐(0) 编辑
上一页 1 ··· 9 10 11 12 13 14 15 16 17 ··· 24 下一页