2020 年 3月随笔档案 - 落日峡谷 - 博客园

03 2020 档案

Python计算皮尔逊 pearson相关系数

摘要：pearson相关系数：用于判断数据是否线性相关的方法。注意：不线性相关并不代表不相关，因为可能是非线性相关。 Python计算pearson相关系数： 1. 使用numpy计算（corrcoef），以下是先标准化再求相关系数 import numpy as np import pandas as 阅读全文

posted @ 2020-03-31 21:04 落日峡谷阅读(32498) 评论(0) 推荐(1) 编辑

Python数据标准化、归一化

摘要：在进行数据分析或者机器学习时，通常需要对数据进行预处理，其中主要的步骤就是数据标准化/归一化。常用的数据标准化和归一化方法主要有： 1. 最大最小标准化 y=(x-min(x))/(max(x)-min(x))，x为一序列，即x={x1,x2,x3......}，max(x)为最大值，min(x) 阅读全文

posted @ 2020-03-31 20:17 落日峡谷阅读(7080) 评论(0) 推荐(0) 编辑

pyspark：'PipelinedRDD' object does not support indexing、 Initial job has not accepted any resources、IOException not a file: hdfs:// XXXX java.sql、Failed to replace a bad datanode on the existing

摘要：最近使用Pyspark的时候，遇到一些新的问题，希望记录下来，解决的我会补充。 1. WARN DomainSocketFactory: The short-circuit local reads feature cannot be used 2. pyspark TypeError: 'Pipel 阅读全文

posted @ 2020-03-28 19:09 落日峡谷阅读(1280) 评论(0) 推荐(0) 编辑

Python的 figure参数和 subplot子图绘制

摘要：1. Python的figure参数主要有： def figure(num=None, # autoincrement if None, else integer from 1-N figsize=None, # defaults to rc figure.figsize dpi=None, # d 阅读全文

posted @ 2020-03-28 18:05 落日峡谷阅读(3476) 评论(0) 推荐(0) 编辑

Python的 plot函数和绘图参数设置

摘要：python的plot函数参数很多，其中主要有： plot([x], y, [fmt], data=None, **kwargs) plot([x], y, [fmt], [x2], y2, [fmt2], ..., **kwargs) Parameters x, y : array-like or 阅读全文

posted @ 2020-03-28 17:25 落日峡谷阅读(30176) 评论(0) 推荐(1) 编辑

Python的散点图绘制 scatter

摘要：python能画的图种类非常多，而且看上去都很好看，具体种类部分可参看：https://matplotlib.org/api/_as_gen/matplotlib.pyplot.figure.html#matplotlib.pyplot.figure 这里主要是探索下散点图绘制。 1. 首先是导入包阅读全文

posted @ 2020-03-28 16:51 落日峡谷阅读(11119) 评论(1) 推荐(1) 编辑

Python的random操作

摘要：random中的主要函数有： random.random()：获取一个随机的浮点数，范围是在0.0~1.0之间 random.uniform()：uniform(self, a, b) —— 产生区间内的随机浮点数 random.randint()：randint(self, a, b) —— 生成阅读全文

posted @ 2020-03-27 15:54 落日峡谷阅读(1683) 评论(0) 推荐(0) 编辑

python的浅复制与深复制

摘要：简单一点吧，太长了看不下去。。。。 copy.copy：浅拷贝，只拷贝父元素，不会拷贝子元素（的引用）。copy.deepcopy：深拷贝，拷贝父元素及其子元素（的引用）。或许，例子更快一些： import copy s1 = [1, 2, 3, [4, 5], '666'] print(s1) 阅读全文

posted @ 2020-03-26 21:18 落日峡谷阅读(144) 评论(0) 推荐(0) 编辑

Python的itertools.product 方法

摘要：itertools.product：类似于求多个可迭代对象的笛卡尔积。使用的形式是： itertools.product(*iterables, repeat=1), product(X, repeat=3)等价于product(X, X, X)。 1. 直接使用时：分别生成元组，然后合成一个li 阅读全文

posted @ 2020-03-26 20:49 落日峡谷阅读(1854) 评论(0) 推荐(0) 编辑

python的关联图绘制 --- pyecharts

摘要：生活中有很多需要用到关联图的地方，至少我认为的是这样的图：https://www.echartsjs.com/examples/zh/editor.html?c=graph-npm 我是在使用Word2Vec计算关联词的余弦距离之后，想要更好的展示出来的时候，遇到的这种情况，就做了下拓展。画图的步阅读全文

posted @ 2020-03-25 11:08 落日峡谷阅读(6548) 评论(0) 推荐(0) 编辑

Python的json读写方式和字典与json的相互转化

摘要：在Python中，json指的是符合json语法格式的字符串，可以单行或者多行。它可以方便的在使用在多种语言中，这里介绍的是在python中的字典（dict）与json字符串相互转化的方式。 1. 导入json包 import json 2. 初始化一个字典数据 dict_ = { 'name': 阅读全文

posted @ 2020-03-24 20:59 落日峡谷阅读(3826) 评论(0) 推荐(0) 编辑

深度学习中的batch_size、epoch和iterations

摘要：在进行模型训练的时候经常会遇到这三个参数：batch_size、epoch和iterations，那么它们之间的关系是怎样的呢？首先，产生的原因主要是： 1. 原本的大批量梯度下降训练时，每次要处理完所有数据才更新梯度和损失值，需要的时间太长，计算开销大。 2. 但是呢，每次计算一个数据，就更新一阅读全文

posted @ 2020-03-18 16:13 落日峡谷阅读(1106) 评论(0) 推荐(2) 编辑

python：array和list转换以及数组切片

摘要：Python中，数组array和列表list的转换很直接。 import numpy as np 1. 首先建立list aaa = [[1,2,3],[4,5,6],[7,8,9],[10,11,12]] 2. list转array，使用np.array() bbb = np.array(aaa) 阅读全文

posted @ 2020-03-18 11:47 落日峡谷阅读(7997) 评论(0) 推荐(0) 编辑

Pandas：Series和DataFrame的索引取值

摘要：Pandas的Series和DataFrame数据均可以使用索引取值。 1. 首先导入库文件 import pandas as pd 2. 创建DataFrame # 1. 创建DataFrame df_1 = pd.DataFrame([['Jack','M',40],['Tony','M',20 阅读全文

posted @ 2020-03-18 10:15 落日峡谷阅读(15173) 评论(0) 推荐(0) 编辑

Pandas：apply方法与lambda、groupby结合、apply多参数传递

摘要：Pandas的apply函数用起来很方便，特别是与groupby、lambda结合使用时更简便。 1. 首先创建DataFrame数据： import pandas as pd import numpy as np df = pd.DataFrame({'name':['Jack','Alex',' 阅读全文

posted @ 2020-03-17 20:27 落日峡谷阅读(13276) 评论(0) 推荐(1) 编辑

pyinstaller执行出现：No module named 'Crypto.Math' 和 WARNING: lib not found: tbb.dll dependency

摘要：1. 在使用pyinstaller打包代码成exe文件时，出现No module named 'Crypto.Math' 错误的原因应该是：现在名称换了。解决方法是： pip uninstall crypto pip uninstall pycryptodome pip install pycry 阅读全文

posted @ 2020-03-17 14:46 落日峡谷阅读(2358) 评论(0) 推荐(0) 编辑

ERROR: Could not install packages due to an EnvironmentError: [WinError 5] 拒绝访问 --- PyQt5

摘要：安装PyQt5的时候出现：ERROR: Could not install packages due to an EnvironmentError: [WinError 5] 拒绝访问。 1. 先说解决方案（加上 '--user'）： pip install --user PyQt5 -i http 阅读全文

posted @ 2020-03-16 19:55 落日峡谷阅读(4267) 评论(0) 推荐(0) 编辑

pyspark创建RDD数据、RDD转DataFrame以及保存

摘要：pyspark创建RDD的方式主要有两种，一种是通过spark.sparkContext.textFile 或者 sparkContext.textFile读取生成RDD数据；另一种是通过spark.sparkContext.parallelize创建RDD数据。 1. 首先导入库和进行环境配置（使阅读全文

posted @ 2020-03-16 16:47 落日峡谷阅读(8110) 评论(0) 推荐(0) 编辑

pyspark将DataFrame转成table以及操作sql语句

摘要：pyspark可以直接将DataFrame格式数据转成table，也可在程序中执行sql代码。 1. 首先导入库和环境，os.environ在系统中有多个python版本时需要设置 import os from pyspark import SparkContext, SparkConf from 阅读全文

posted @ 2020-03-14 20:33 落日峡谷阅读(5757) 评论(0) 推荐(0) 编辑

pyspark读取textfile形成DataFrame以及查询表的属性信息

摘要：pyspark可用于读取textfile格式的hive表格。 1. 查看hive表的属性方法（在hive或者spark-sql命令行均可）：查询建表信息： show create table database_name.table_name; 查询表的属性信息 (可看到表的格式信息例如，Input 阅读全文

posted @ 2020-03-14 19:28 落日峡谷阅读(4836) 评论(0) 推荐(1) 编辑

pyspark获取和处理RDD数据

摘要：弹性分布式数据集（RDD）是一组不可变的JVM对象的分布集，可以用于执行高速运算，它是Apache Spark的核心。在pyspark中获取和处理RDD数据集的方法如下： 1. 首先是导入库和环境配置（本测试在linux的pycharm上完成） import os from pyspark imp 阅读全文

posted @ 2020-03-14 18:21 落日峡谷阅读(5235) 评论(0) 推荐(0) 编辑

pyspark读取parquet数据

摘要：parquet数据：列式存储结构，由Twitter和Cloudera合作开发，相比于行式存储，其特点是：可以跳过不符合条件的数据，只读取需要的数据，降低IO数据量；压缩编码可以降低磁盘存储空间，使用更高效的压缩编码节约存储空间；只读取需要的列，支持向量运算，能够获取更好的扫描性能。那么我们怎阅读全文

posted @ 2020-03-14 17:20 落日峡谷阅读(7070) 评论(0) 推荐(0) 编辑

python求时间差

摘要：python求时间差主要是用的datetime包，包括同一天情形下的时间差和不同天情形下的时间差。 from datetime import datetime, date 1. 同一天情形下的时间差（秒）seconds ，分钟由秒数除以60即可 #计算时间差的分钟数 # 同一天的时间差 time_1 阅读全文

posted @ 2020-03-05 10:31 落日峡谷阅读(30658) 评论(0) 推荐(0) 编辑

pandas索引操作之loc，iloc，ix等方法

摘要：pandas的索引操作可以快速的完成多种功能。 import pandas as pd import numpy as np 1. 首先pandas创建DataFrame，创建DataFrame格式数据有多种方式，可以使用数组、列表、字典等； df_1 = pd.DataFrame([['Jack' 阅读全文

posted @ 2020-03-04 20:38 落日峡谷阅读(2017) 评论(0) 推荐(0) 编辑

pandas的concat和drop函数

摘要：pandas的concat函数用于连接两个DataFrame数据，drop函数用于删除DataFrame数据中的行或者列。首先导入需要的库 pandas和numpy： import pandas as pd import numpy as np 1. 创建DataFrame，可以使用数组或者列表、阅读全文

posted @ 2020-03-04 16:36 落日峡谷阅读(2092) 评论(0) 推荐(0) 编辑

mysql语句的书写顺序和执行顺序

摘要：mysql语句的书写顺序和执行顺序有很大差异。书写顺序，mysql的一般书写顺写为： select <要返回的数据列> from <表名> <join, left join, right join...> join <join表> on <join条件> where <where条件> group 阅读全文

posted @ 2020-03-02 21:30 落日峡谷阅读(1537) 评论(0) 推荐(0) 编辑

公告

昵称：落日峡谷
园龄： 6年6个月
粉丝： 31
关注： 2

导航

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

统计

随笔 - 150
文章 - 0
评论 - 17
阅读 - 124万

随笔分类 (171)

随笔档案 (150)

阅读排行榜

评论排行榜

推荐排行榜

最新评论

1. Re:曼哈顿距离、欧拉距离、余弦距离等
字写的不错；
Euclidean Distance不是叫“欧拉距离”吧，应该是“欧几里得距离”。
--阿佑001
2. Re:Python绘制混淆矩阵，汉字显示label
有一个地方要改一下 “# 显示数据 for first_index in range(len(confusion)): #第几行 for second_index in range(len(confu...
--mygj
3. Re:Pyspark中遇到的 java.io.IOException: Not a file 和 pyspark.sql.utils.AnalysisException: 'Table or view not found
请问下第二种情况，表存在但是pyspark跑出来报错说不存在但是能找到default这个库可以查看到时什么原因
--sei你爷爷骑单车
4. Re:Python绘制混淆矩阵，汉字显示label
请问这个混淆矩阵中的数字有点偏，怎么设置居中于每个格子呢
--w553
5. Re:Python的散点图绘制 scatter
写的很详细，很有帮助。
--小村铁匠