自由的射手

2020年6月3日

摘要： DataFrame is a Dataset 运行方式 RDD java/scala ==> jvm python ==> python runtime DataFrame java/scala/python ==> Logic Plan DataFrame常用API操作阅读全文

posted @ 2020-06-03 17:33 自由的射手阅读(93) 评论(0) 推荐(0)

2020年5月28日

SQLserver导入Excel数据长度限制报错

摘要：先介绍一下写该博客的背景：由于最近在使用腾讯问卷统计健康信息，导出的Excel表中，备注字段填报的数据过长，最长达到346，而在执行Excel导入表操作时，会出现数据被截断错误，导致数据导入失败。百度搜索原因：发现大多数给出的原因是在导入数据过程中，生成的临时表会根据Excel的前8行或者前3行确阅读全文

posted @ 2020-05-28 15:15 自由的射手阅读(1582) 评论(0) 推荐(0)

2020年5月18日

Spark

摘要：数据处理框架基于内存、线程特点：快速、易用、通用、运行在很多地方产生背景： mapreduce的局限性： 1）代码繁琐 2）只能够支持map和reduce方法 3）执行效率低下 4）不适合迭代多次、交互式、流式的处理框架的多样化： 1）批处理（离线处理）：mapreduce、hive、pig 阅读全文

posted @ 2020-05-18 16:14 自由的射手阅读(159) 评论(0) 推荐(0)

Hive

摘要： Hive产生背景： mapreduce编程的不便性 HDFS上的文件缺少Schema Hive Facebook开源的，最初用于海量结构化的日志数据统计问题构建在hadoop之上的数据仓库 hive定义了一种类SQL查询语言：HQL（类似SQL但不完全相同）通常用于离线数据处理（采用mapred 阅读全文

posted @ 2020-05-18 15:05 自由的射手阅读(115) 评论(0) 推荐(0)

2020年5月13日

MapReduce+yarn

摘要：分布式计算框架MapReduce（离线批处理）特点：易于编程良好的扩展性高容错性海量数据的离线处理不擅长场景实时计算、流式计算、DAG计算 YARN架构 1 RM(ResourceManager) + N NM(NodeManager) ResourceManager的职责：一个集群a 阅读全文

posted @ 2020-05-13 16:56 自由的射手阅读(149) 评论(0) 推荐(0)

Hadoop-HDFS

摘要：课程软件存放目录 hadoop/hadoop /home/hadoop software：存放安装的软件包 app：存放的是所有软件的安装目录 data：存放的是课程中所有使用的测试数据目录 source：存放的是软件源码目录，spark Hadoop环境搭建1）下载Hadoop http://ar 阅读全文

posted @ 2020-05-13 14:47 自由的射手阅读(143) 评论(0) 推荐(0)

2020年4月16日

输入页码实现翻页跳转

摘要： try: self.browser.get(request.url) if page > 1: print(page) # input = self.wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '# J_bottomPage 阅读全文

posted @ 2020-04-16 16:06 自由的射手阅读(1306) 评论(0) 推荐(0)

爬虫模拟点击下一页selenium

摘要：爬虫实现翻页功能from selenium import webdriverfrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.support import expected_condition 阅读全文

posted @ 2020-04-16 16:04 自由的射手阅读(5539) 评论(0) 推荐(0)

Scrapy 爬取豆瓣登录二维码

摘要：近日正在学习python Scrapy，以豆瓣网页为目标，本篇随笔主要记录爬取豆瓣登录二维码（抓取及保存）在爬取中，需要设置等待页面加载的时间，否则会出现无法定位到网页元素的问题，因为这个问题，我弄了一上午。。。#coding = utf-8# -*- coding:utf-8 -*-from se 阅读全文

posted @ 2020-04-16 15:12 自由的射手阅读(542) 评论(0) 推荐(0)

公告