酷酷的狐狸

2021年4月1日

摘要： mysql在使用where条件筛选时，无论所在行符合不符合过滤条件（比如where row!=1），都自动过滤掉字段值为null的行（row=null也会过滤掉）阅读全文

posted @ 2021-04-01 11:23 酷酷的狐狸阅读(75) 评论(0) 推荐(0)

2021年3月31日

摘要：一、RDD概述 1.1 RDD叫做弹性分布式数据集，是spark中最基本的抽象数据。它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。 1）弹性：存储的弹性：内存与磁盘的自动切换容错的弹性：数据丢失可以自动恢复计算的弹性：计算出容错机制分片的弹性：可根据需要重新分片 2）分布式阅读全文

posted @ 2021-03-31 10:54 酷酷的狐狸阅读(204) 评论(0) 推荐(0)

2021年3月29日

spark分区计算方式

摘要： 1.默认分区 setMaster("local")：采用的是默认值，核数1 setMaster("local[*]")：最大分区数与物理机cpu核数相同，最小值为2，具体分区数量需要计算 2.从不同位置创建rdd，分区数量 -从集合中创建rdd 取决于分配给应用的cpu核数 -从外部文件中创建rdd 阅读全文

posted @ 2021-03-29 19:29 酷酷的狐狸阅读(658) 评论(0) 推荐(0)

2021年3月26日

git操作

摘要：一、未使用git add缓存代码时： // 放弃单个文件修改,注意不要忘记中间的"--",不写就成了检出分支了! git checkout -- filepathname // 放弃所有的文件修改 git checkout . 二、已经使用的git add缓存了代码： git reset HEAD 阅读全文

posted @ 2021-03-26 13:21 酷酷的狐狸阅读(61) 评论(0) 推荐(0)

2021年3月17日

spark运行模式

摘要：一、Local模式：在本地部署单个Spark服务 Local模式就是运行在一台计算机上的模式，通常就是用于在本机上练手和测试。二、Standalone模式：Spark自带的任务调度模式。（国内常用） Standalone模式是Spark自带的资源调动引擎，构建一个由Master + Slave构成阅读全文

posted @ 2021-03-17 20:08 酷酷的狐狸阅读(301) 评论(0) 推荐(0)

2021年2月2日

python压缩、解压文件

摘要： 1.读取ZIP文件信息 import zipfile # 传入压缩文件zfile.zip获取相关信息 zip_file = zipfile.ZipFile('zfile.zip') # 获取压缩文件中的内容 f_content = zip_file.namelist() # 压缩前的大小 f_siz 阅读全文

posted @ 2021-02-02 17:32 酷酷的狐狸阅读(354) 评论(0) 推荐(0)

2020年11月13日

python发送邮件

摘要：邮件发送脚本 import smtplib from email.mime.text import MIMEText from email.header import Header from email.utils import formataddr class SendMail(): def __ 阅读全文

posted @ 2020-11-13 10:05 酷酷的狐狸阅读(119) 评论(0) 推荐(0)

2020年11月10日

pandas将空值入库

摘要：如果数据库表中有很多空值，那么pandas在将数据取出来后，在python中会以"None"显示，但是pandas会认为"None"值为字符串，所以当空值所在字段为整数int或bigint类型时，pandas会抛出异常（字符串类型字段则不会），因此需要将取出的DataFrame数据中的空值所在字段进阅读全文

posted @ 2020-11-10 16:06 酷酷的狐狸阅读(513) 评论(0) 推荐(0)

2020年10月13日

pandas的数据操作

摘要： 1.数据类型映射 2.过滤操作 sql中的where语句的功能非常丰富，常用关键包括 =，<>，>=，<=，>，<，in，not in，isnull，like，and，or等关键字，下面我们就来看看，如果是在pandas中该如何实现。 >>> import pandas as pd >>> impo 阅读全文

posted @ 2020-10-13 16:43 酷酷的狐狸阅读(178) 评论(0) 推荐(0)

2020年10月10日

maven依赖的范围和依赖的传递性

摘要： # test环境下可以使用，main环境下不能使用，如junit<scope>test</scope># 服务器环境自身包含，但开发环境需要提供<scope>provide</scope># 默认，可以被依赖传递<scope>compile</scope> dependency依赖原则为路径最短者优阅读全文

posted @ 2020-10-10 15:01 酷酷的狐狸阅读(231) 评论(0) 推荐(0)

走思狗的日子

公告