摘要:  设置控制台打印的Log等级 在在爬虫主文件写爬取代码,使用scrapy.Request请求。 运行爬虫结果 使用scrapy.FormRequest请求。 运行结果相同。 两种请求方式的应用场景 scrapy.Request:主要应用GET网页数据时应用。 scrapy.FormRequest: 阅读全文
posted @ 2019-08-25 21:50 会走的树 阅读(272) 评论(0) 推荐(0) 编辑
摘要:  安装说明 scrapy安装需要安装一些第三方依赖库,依赖库的安装与需要和Python版本,Windows位数,所需的电脑插件有关。 参考信息:Python3.6,Windows10 64位 相关软件下载: 链接:https://pan.baidu.com/s/1Vzx8GGeojmUzMSZEx 阅读全文
posted @ 2019-08-25 21:49 会走的树 阅读(355) 评论(0) 推荐(0) 编辑
摘要: https://www.cnblogs.com/chengxs/p/9090819.html 阅读全文
posted @ 2019-08-19 23:59 会走的树 阅读(462) 评论(0) 推荐(0) 编辑
摘要: https://blog.csdn.net/weixin_41704733/article/details/79871950 阅读全文
posted @ 2019-08-19 23:30 会走的树 阅读(166) 评论(0) 推荐(0) 编辑
摘要: https://www.cnblogs.com/Knowledge has no limit/p/7240585.html 阅读全文
posted @ 2019-08-19 23:29 会走的树 阅读(130) 评论(0) 推荐(0) 编辑
摘要: https://blog.csdn.net/hhj724/article/details/79094138 阅读全文
posted @ 2019-08-19 23:27 会走的树 阅读(10959) 评论(0) 推荐(0) 编辑
摘要: https://blog.csdn.net/nel0511/article/details/13091163 阅读全文
posted @ 2019-08-19 23:25 会走的树 阅读(190) 评论(0) 推荐(0) 编辑
摘要: 系统:Centos6.5 创建需要的文件夹 安装jdk 配置环境变量 Hadoop2.7.3伪分布式配置 yarn配置 阅读全文
posted @ 2019-08-19 15:21 会走的树 阅读(3897) 评论(0) 推荐(0) 编辑
摘要:  IDEA创建WordCount Maven项目 创建WordCount源文件 words.text 内容 WordCount源码 说明参考: https://www.cnblogs.com/studyNotesSL/p/11367751.html pom.xml源码 选择 Enables Aut 阅读全文
posted @ 2019-08-19 14:56 会走的树 阅读(868) 评论(0) 推荐(0) 编辑
摘要: https://blog.csdn.net/qq_37193537/article/details/81335165 阅读全文
posted @ 2019-08-18 18:24 会走的树 阅读(161) 评论(0) 推荐(0) 编辑
摘要: https://blog.csdn.net/qq_26200629/article/details/86141131 阅读全文
posted @ 2019-08-18 18:21 会走的树 阅读(4836) 评论(0) 推荐(0) 编辑
摘要: https://www.cnblogs.com/YangtzeYu/p/7858182.html 阅读全文
posted @ 2019-08-18 16:34 会走的树 阅读(222) 评论(0) 推荐(0) 编辑
摘要: http://dblab.xmu.edu.cn/blog/1096 2/ 安装kafka 修改zookeeper.properties 修改server.properties 测试kafka 阅读全文
posted @ 2019-08-18 14:27 会走的树 阅读(210) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2019-08-17 12:58 会走的树 阅读(341) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2019-08-17 11:31 会走的树 阅读(484) 评论(0) 推荐(0) 编辑
摘要: "安装MySQL" 安装HIve 配置环境变量 使用hive默认的元数据 使用MySQL作为元数据 Linux远程连接MySQL (5.1.41版本) 启动hive 参考: "大数据技术原理与应用 第十四章 基于Hadoop的数据仓库Hive 学习指南" "关于hive异常:Unable to in 阅读全文
posted @ 2019-08-17 10:50 会走的树 阅读(561) 评论(0) 推荐(0) 编辑
摘要: 本机安装MySQL (非Linux core版本) MySQL默认连接端口:3306 卸载已经安装 使用yum安装MySQL 启动mysql服务 解决初始密码问题 sqoop导入MySQL中文乱码的问题 Linux core连接MySQL 添加MySQL的主机IP映射 安装MySQL的客户端 阅读全文
posted @ 2019-08-17 10:46 会走的树 阅读(365) 评论(0) 推荐(0) 编辑
摘要: words.txt 数据 阅读全文
posted @ 2019-08-17 10:43 会走的树 阅读(220) 评论(0) 推荐(0) 编辑
摘要: 准备代码 使用SQL语句查询 查看数据 加载数据到数组 获取指定字段的统计信息 获取n行数据 条件查询 去除重复数据 同字段数据组合(unionAll) 同字段数据行组合(join) 阅读全文
posted @ 2019-08-17 10:39 会走的树 阅读(1104) 评论(0) 推荐(0) 编辑
摘要: 头代码 RDD创建 保存RDD数据 RDD数据类型转换 RDD逻辑操作方法 去重 分组 累积运算(reduce) 筛选RDD元素 拆分RDD的Map 统计个数 选取元素 排序 RDD合并 RDD分区 分区运算 阅读全文
posted @ 2019-08-14 15:49 会走的树 阅读(238) 评论(0) 推荐(0) 编辑