Geeksongs - 博客园

2021年1月29日

摘要：我们首先打开58同城的网站：观察网站的版面：发现所有的title都是以h3开头，并且具有class为“ property-content-title-name ” 因此我们可以编写这样的程序即可得到整个版面的title，在程序当中使用Xpath表达式即可，使用起来非常方便： import requ 阅读全文

posted @ 2021-01-29 11:40 Geeksongs 阅读(1435) 评论(0) 推荐(0)

【Python爬虫】：Xpath表达式的使用

摘要：假设我爬取了这样的一个html网页，前面的前端代码如下所示： <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>OK资源采集-最新影视资源大全</title> <meta http-equiv="Content-Type" conte 阅读全文

posted @ 2021-01-29 09:31 Geeksongs 阅读(901) 评论(0) 推荐(0)

2021年1月19日

【Hadoop】：MapReduce实现序列化

摘要：一.序列化简介什么是序列化呢？序列化：对象———》字节序列反序列化：字节序列——》对象备注：对象在内存(RAM)当中字节序列：可以在磁盘（ROM）当中，也可以在网络当中进行传输序列化的根本缘故：将对象从RAM里的数据转化成ROM里的数据二.序列化案例我们这里将要编写的序列化的程序的阅读全文

posted @ 2021-01-19 11:15 Geeksongs 阅读(323) 评论(0) 推荐(0)

2021年1月16日

【Python爬虫】：爬取干货集中营上的全部美女妹子（翻页处理）

摘要：一.确定爬取思路今天突发奇想，能不能使用python爬虫来爬取一些妹子图片呢，于是摩拳擦掌开始干了起来。首先打开网页htttps://gank.io 当中的妹子专栏，发现里面全是妹子，如下所示：网址如下所示： https://gank.io/special/Girl 翻到最下面发现按钮，一共有阅读全文

posted @ 2021-01-16 14:12 Geeksongs 阅读(2543) 评论(2) 推荐(0)

2021年1月15日

【Hadoop】：手动实现WordCount案例

摘要：一.实现案例实现WorldCount的流程如下：备注：其中输入的数据是一个txt文件，里面有各种单词，每一行中用空格进行空行一.Mapper的编写我们在IDEA是使用“ctrl+alt+鼠标左键点击”的方式来查看源码，我们首先查看mapper 类的源码，同时源码我已经使用了，如下所示： // 阅读全文

posted @ 2021-01-15 13:27 Geeksongs 阅读(474) 评论(0) 推荐(0)

2021年1月11日

【Python爬虫】：爬取（谷歌/百度/搜狗）的搜索结果

摘要：步骤如下：1.首先导入爬虫的package：requests 2.使用UA 伪装进行反反爬虫，将爬虫伪装成一个浏览器进行上网 3.通过寻找，找到到谷歌搜索时请求的url。假设我们在谷歌浏览器当中输入：不知道我们可以得到请求结果的网址如下：也就是： https://www.google.com/ 阅读全文

posted @ 2021-01-11 13:44 Geeksongs 阅读(4933) 评论(0) 推荐(0)

【Hadoop】：MapReduce核心思想

摘要：一.MapReduce流程介绍假设我们有一个任务：用于统计一个文件当中一个单词出现的总次数,查询结果保存到两个文件里，一个装载a-p单词出现的次数，一个文件装载q-z单词出现的个数。下面是这个任务使用mapreduce实现的具体流程： MapReduce当中需要注意的是： 1.一个MapReduc 阅读全文

posted @ 2021-01-11 11:32 Geeksongs 阅读(576) 评论(0) 推荐(0)

2021年1月5日

【Hadoop】：HDFS的读写操作

摘要：一.HDFS的写（上传）操作所谓的写操作，那么就是将client的文件（可能是本地）写入到HDFS当中。写操作的流程如图所示：过程概述： 1.我们有一个大小为200mb的文件，在逻辑上将其分为两个block，并不是在实际当中进行分割（这里不知道为什么分为了128mb和72mb两个block，因阅读全文

posted @ 2021-01-05 13:36 Geeksongs 阅读(631) 评论(0) 推荐(0)

【Hadoop】：HDFS调用Java API进行操作

摘要：一.程序的架构一般来讲我们可以使用命令行在linux下对HDFS进行操作，那么我们也可以使用Java对HDFS进行操作，因为一旦使用了Java，我们可以编写Java程序定时对HDFS进行操作，这样就会更加的自动，也就不需要人为在linux下输入这些命令了。这里我使用了Junit的Java单元测试对阅读全文

posted @ 2021-01-05 11:20 Geeksongs 阅读(547) 评论(0) 推荐(0)

2020年12月29日

【Hadoop】：Windows下使用IDEA搭建Hadoop开发环境

摘要：笔者鼓弄了两个星期，终于把所有有关hadoop的环境配置好了，一是虚拟机上的完全分布式集群，但是为了平时写代码的方便，则在windows上也配置了hadoop的伪分布式集群，同时在IDEA上就可以编写代码，同时在windows环境下进行运行。（如果不配置windows下的伪分布式集群，则在IDEA上阅读全文

posted @ 2020-12-29 09:20 Geeksongs 阅读(8694) 评论(0) 推荐(3)

Geek Song

保持对科技的热情，不断积累自己的技术套装，力求能够快速从0到1构建整个项目，生命因技术而更加精彩！

公告

Coded by Geeksongs on Linux

All rights reserved, no one is allowed to pirate or use the document for other purposes.