08 2022 档案

摘要:关于爬虫 几乎每一个网站都有一个名为 robots.txt 的文档,当然也有部分网站没有设定 robots.txt。对于没有设定 robots.txt 的网站可以通过网络爬虫获取没有口令加密的数据,也就是该网站所有页面数据都可以爬取。如果网站有 robots.txt 文档,就要判断是否有禁止访客获取 阅读全文
posted @ 2022-08-27 19:14 zrswheart 阅读(51) 评论(0) 推荐(0) 编辑
摘要:暑假的第八周下载PyCharm并学习 python 1、下载PyCharm安装包首先去Pycharm官网,或者直接输入网址:http://www.jetbrains.com/pycharm/download/#section=windows,根据自己电脑的操作系统进行选择,对于windows系统选择 阅读全文
posted @ 2022-08-20 21:30 zrswheart 阅读(19) 评论(0) 推荐(0) 编辑
摘要:一、准备需要三台 linux 服务器 ip >hostname 192.168.0.101 hadoop-ip-101 192.168.0.102 hadoop-ip-102 192.168.0.103 hadoop-ip-103 安装一台型新的 linu 虚拟机(centos7) 1)创建用户 h 阅读全文
posted @ 2022-08-15 20:59 zrswheart 阅读(34) 评论(0) 推荐(0) 编辑
摘要:一、HDFS写数据流程 客户端向namenode请求上传文件,namenode检查目标文件是否已存在,父目录是否存在。 namenode返回是否可以上传 客户端请求第一个 block上传到哪几个datanode服务器上 namenode返回3个datanode节点,分别为dn1、dn2、dn3 客户 阅读全文
posted @ 2022-08-13 21:58 zrswheart 阅读(28) 评论(0) 推荐(0) 编辑
摘要:暑假第七周还是继续学习hadoop 一、什么是 HDFS HDFS: 是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。HDFS 的设计适合一次写入,多次读出的场景,且不支持文件的修改。适合用来做数据分析,并不适合用来 阅读全文
posted @ 2022-08-13 21:58 zrswheart 阅读(23) 评论(0) 推荐(0) 编辑
摘要:暑假的第六周在 hadoop102 安装 HadoopHadoop 下载地址:https://archive.apache.org/dist/hadoop/common/hadoop-3.1.3/ 1 ) 用 XShell 文件传输 工具将 hadoop-3.1.3.tar.gz 导入到 opt 目 阅读全文
posted @ 2022-08-06 22:29 zrswheart 阅读(22) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示