摘要: DataFrame is a Dataset 运行方式 RDD java/scala ==> jvm python ==> python runtime DataFrame java/scala/python ==> Logic Plan DataFrame常用API操作 阅读全文
posted @ 2020-06-03 17:33 自由的射手 阅读(86) 评论(0) 推荐(0) 编辑
摘要: 先介绍一下写该博客的背景:由于最近在使用腾讯问卷统计健康信息,导出的Excel表中,备注字段填报的数据过长,最长达到346,而在执行Excel导入表操作时,会出现数据被截断错误,导致数据导入失败。 百度搜索原因:发现大多数给出的原因是在导入数据过程中,生成的临时表会根据Excel的前8行或者前3行确 阅读全文
posted @ 2020-05-28 15:15 自由的射手 阅读(1356) 评论(0) 推荐(0) 编辑
摘要: 数据处理框架 基于内存、线程 特点:快速、易用、通用、运行在很多地方 产生背景: mapreduce的局限性: 1)代码繁琐 2)只能够支持map和reduce方法 3)执行效率低下 4)不适合迭代多次、交互式、流式的处理 框架的多样化: 1)批处理(离线处理):mapreduce、hive、pig 阅读全文
posted @ 2020-05-18 16:14 自由的射手 阅读(134) 评论(0) 推荐(0) 编辑
摘要: Hive产生背景: mapreduce编程的不便性 HDFS上的文件缺少Schema Hive Facebook开源的,最初用于海量结构化的日志数据统计问题 构建在hadoop之上的数据仓库 hive定义了一种类SQL查询语言:HQL(类似SQL但不完全相同) 通常用于离线数据处理(采用mapred 阅读全文
posted @ 2020-05-18 15:05 自由的射手 阅读(107) 评论(0) 推荐(0) 编辑
摘要: 分布式计算框架MapReduce(离线批处理) 特点: 易于编程 良好的扩展性 高容错性 海量数据的离线处理 不擅长场景 实时计算、流式计算、DAG计算 YARN架构 1 RM(ResourceManager) + N NM(NodeManager) ResourceManager的职责:一个集群a 阅读全文
posted @ 2020-05-13 16:56 自由的射手 阅读(137) 评论(0) 推荐(0) 编辑
摘要: 课程软件存放目录 hadoop/hadoop /home/hadoop software:存放安装的软件包 app:存放的是所有软件的安装目录 data:存放的是课程中所有使用的测试数据目录 source:存放的是软件源码目录,spark Hadoop环境搭建1)下载Hadoop http://ar 阅读全文
posted @ 2020-05-13 14:47 自由的射手 阅读(134) 评论(0) 推荐(0) 编辑
摘要: try: self.browser.get(request.url) if page > 1: print(page) # input = self.wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '# J_bottomPage 阅读全文
posted @ 2020-04-16 16:06 自由的射手 阅读(1188) 评论(0) 推荐(0) 编辑
摘要: 爬虫实现翻页功能from selenium import webdriverfrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.support import expected_condition 阅读全文
posted @ 2020-04-16 16:04 自由的射手 阅读(5233) 评论(0) 推荐(0) 编辑
摘要: 近日正在学习python Scrapy,以豆瓣网页为目标,本篇随笔主要记录爬取豆瓣登录二维码(抓取及保存)在爬取中,需要设置等待页面加载的时间,否则会出现无法定位到网页元素的问题,因为这个问题,我弄了一上午。。。#coding = utf-8# -*- coding:utf-8 -*-from se 阅读全文
posted @ 2020-04-16 15:12 自由的射手 阅读(497) 评论(0) 推荐(0) 编辑