摘要: Python 3.6 抓取微博m站数据 2019.05.01 更新内容 1. containerid 可以通过 组装得到,无需请求个人信息获取; 2. 优化多线程抓取,修复之前因 全局定义,导致代理无法正常切回本地IP; 3. 优化分布式抓取策略,由每台机器顺序获取用户ID 再拼装URL抓取策略,修 阅读全文
posted @ 2019-03-07 19:06 Grand_Jon 阅读(1546) 评论(0) 推荐(0) 编辑
 

摘要: Linux下的cp/rm/mv强制覆盖方法以及使用java调用命令实现 阅读全文
posted @ 2017-08-18 18:34 Grand_Jon 阅读(14297) 评论(0) 推荐(0) 编辑
 
摘要: Oracle的CLOB类型,使用java操作CLOB 阅读全文
posted @ 2017-08-18 14:36 Grand_Jon 阅读(118845) 评论(3) 推荐(4) 编辑
 

2019年1月3日

摘要: NameNode 内存 本地磁盘 fsimage edits 第一次启动HDFS 1. 格式化HDFS,目的就是生成fsimage 2. start NameNode,读取fsimage文件 3. start DataNode,向NameNode注册;block report(块汇报) 4. cre 阅读全文
posted @ 2019-01-03 00:44 Grand_Jon 阅读(1191) 评论(0) 推荐(0) 编辑
 

2018年12月27日

摘要: 管理模式 阅读全文
posted @ 2018-12-27 23:42 Grand_Jon 阅读(219) 评论(0) 推荐(0) 编辑
 

2018年12月26日

摘要: Hadoop Distributed File System 易于拓展的分布式文件系统 运行在大量普通廉价机器上,提供容错机制 为大量用户提供性能不错的文件存取服务 NameNode Namenode是一个中心服务器,==单一节点==(简化系统的设计和实现),==负责管理文件系统的名字空间(name 阅读全文
posted @ 2018-12-26 23:53 Grand_Jon 阅读(579) 评论(0) 推荐(0) 编辑
 

2018年12月25日

摘要: HDFS模块 NameNode:是由哪个文件中的哪个配置属性指定的呢? core site.xml文件中; DataNodes:是由哪个文件中的哪个配置属性指定的呢? slaves文件中; SecondaryNameNode:是由哪个文件中的哪个配置属性指定的呢? hdfs site.xml文件中; 阅读全文
posted @ 2018-12-25 18:56 Grand_Jon 阅读(195) 评论(0) 推荐(0) 编辑
 

2018年12月24日

摘要: 启动方式 一、各个组件逐一启动 二、各个模块分开启动 需要配置ssh无密钥登陆 三、全部启动 SSH无密钥登陆 1. 运行:ssh keygen t rsa 2. 然后拍两下回车(均选择默认) 3. 运行: ssh copy id i /root/.ssh/id_rsa.pub root@192.1 阅读全文
posted @ 2018-12-24 23:09 Grand_Jon 阅读(486) 评论(0) 推荐(0) 编辑
 

2018年12月23日

摘要: 配置文件 默认配置文件:相对应的jar包中 core default.xml hdfs default.xml yarn default.xml mapred default.xml 自定义配置文件 $HADOOP_HOME/etc/hadoop/ core site.xml hdfs site.x 阅读全文
posted @ 2018-12-23 22:58 Grand_Jon 阅读(231) 评论(0) 推荐(0) 编辑
 

2018年12月21日

摘要: Log Aggregation 日志聚集 增加以下配置信息启动日志服务器 重新启动yarn服务 阅读全文
posted @ 2018-12-21 14:14 Grand_Jon 阅读(174) 评论(0) 推荐(0) 编辑
 

2018年12月20日

摘要: NameNode格式化 配置文件信息有问题 主机名ip映射配置问题 启动NameNode出错 查看日志 `logs/ ` 阅读全文
posted @ 2018-12-20 18:26 Grand_Jon 阅读(175) 评论(0) 推荐(0) 编辑
 

2018年12月19日

摘要: 运行方式 1. Local (Standalone) Mode 1. Pseudo Distributed Mode 1. Fully Distributed Mode Standalone Operation Pseudo Distributed Operation Configuration U 阅读全文
posted @ 2018-12-19 15:02 Grand_Jon 阅读(218) 评论(0) 推荐(0) 编辑