摘要:
mysql在使用where条件筛选时,无论所在行符合不符合过滤条件(比如where row!=1),都自动过滤掉字段值为null的行(row=null也会过滤掉) 阅读全文
摘要:
一、RDD概述 1.1 RDD叫做弹性分布式数据集,是spark中最基本的抽象数据。它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。 1)弹性: 存储的弹性:内存与磁盘的自动切换 容错的弹性:数据丢失可以自动恢复 计算的弹性:计算出容错机制 分片的弹性:可根据需要重新分片 2)分布式 阅读全文
摘要:
1.默认分区 setMaster("local"):采用的是默认值,核数1 setMaster("local[*]"):最大分区数与物理机cpu核数相同,最小值为2,具体分区数量需要计算 2.从不同位置创建rdd,分区数量 -从集合中创建rdd 取决于分配给应用的cpu核数 -从外部文件中创建rdd 阅读全文
摘要:
一、未使用git add缓存代码时: // 放弃单个文件修改,注意不要忘记中间的"--",不写就成了检出分支了! git checkout -- filepathname // 放弃所有的文件修改 git checkout . 二、已经使用的git add缓存了代码: git reset HEAD 阅读全文
摘要:
一、Local模式:在本地部署单个Spark服务 Local模式就是运行在一台计算机上的模式,通常就是用于在本机上练手和测试。 二、Standalone模式:Spark自带的任务调度模式。(国内常用) Standalone模式是Spark自带的资源调动引擎,构建一个由Master + Slave构成 阅读全文
摘要:
1.读取ZIP文件信息 import zipfile # 传入压缩文件zfile.zip获取相关信息 zip_file = zipfile.ZipFile('zfile.zip') # 获取压缩文件中的内容 f_content = zip_file.namelist() # 压缩前的大小 f_siz 阅读全文
摘要:
邮件发送脚本 import smtplib from email.mime.text import MIMEText from email.header import Header from email.utils import formataddr class SendMail(): def __ 阅读全文
摘要:
如果数据库表中有很多空值,那么pandas在将数据取出来后,在python中会以"None"显示,但是pandas会认为"None"值为字符串,所以当空值所在字段为整数int或bigint类型时,pandas会抛出异常(字符串类型字段则不会),因此需要将取出的DataFrame数据中的空值所在字段进 阅读全文
摘要:
1.数据类型映射 2.过滤操作 sql中的where语句的功能非常丰富,常用关键包括 =,<>,>=,<=,>,<,in,not in,isnull,like,and,or等关键字,下面我们就来看看,如果是在pandas中该如何实现。 >>> import pandas as pd >>> impo 阅读全文
摘要:
# test环境下可以使用,main环境下不能使用,如junit<scope>test</scope># 服务器环境自身包含,但开发环境需要提供<scope>provide</scope># 默认,可以被依赖传递<scope>compile</scope> dependency依赖原则为路径最短者优 阅读全文