摘要: 一、什么是爬虫 1、HTTP简介 (1)HTTP=Hyper text Transfer Protocol (2)URI=Uniform Resource Identifier (3)URL=Uniform Resource Locator (4)URI和URL的区别:URI强调的是资源,而URL强 阅读全文
posted @ 2018-10-25 20:08 stone1234567890 阅读(172) 评论(0) 推荐(0) 编辑
摘要: 安装python3.6可能使用的依赖# yum install openssl-devel bzip2-devel expat-devel gdbm-devel readline-devel sqlite-devel 下载python3.6编译安装到python官网下载https://www.pyt 阅读全文
posted @ 2018-10-25 15:20 stone1234567890 阅读(134) 评论(0) 推荐(0) 编辑
摘要: wordcount是spark入门级的demo,不难但是很有趣。接下来我用命令行、scala、Java和python这三种语言来实现单词统计。 一、使用命令行实现单词的统计 1.首先touch一个a.txt文本文件 2.加载文本:产生弹性分布式数据集,用sc.textFile()加载文本文件到内存中 阅读全文
posted @ 2018-10-25 10:43 stone1234567890 阅读(1799) 评论(0) 推荐(0) 编辑