摘要:pearson相关系数:用于判断数据是否线性相关的方法。 注意:不线性相关并不代表不相关,因为可能是非线性相关。 Python计算pearson相关系数: 1. 使用numpy计算(corrcoef),以下是先标准化再求相关系数 import numpy as np import pandas as
阅读全文
摘要:在进行数据分析或者机器学习时,通常需要对数据进行预处理,其中主要的步骤就是数据标准化/归一化。 常用的数据标准化和归一化方法主要有: 1. 最大最小标准化 y=(x-min(x))/(max(x)-min(x)),x为一序列,即x={x1,x2,x3......},max(x)为最大值,min(x)
阅读全文
摘要:最近使用Pyspark的时候,遇到一些新的问题,希望记录下来,解决的我会补充。 1. WARN DomainSocketFactory: The short-circuit local reads feature cannot be used 2. pyspark TypeError: 'Pipel
阅读全文
摘要:1. Python的figure参数主要有: def figure(num=None, # autoincrement if None, else integer from 1-N figsize=None, # defaults to rc figure.figsize dpi=None, # d
阅读全文
摘要:python的plot函数参数很多,其中主要有: plot([x], y, [fmt], data=None, **kwargs) plot([x], y, [fmt], [x2], y2, [fmt2], ..., **kwargs) Parameters x, y : array-like or
阅读全文
摘要:python能画的图种类非常多,而且看上去都很好看,具体种类部分可参看:https://matplotlib.org/api/_as_gen/matplotlib.pyplot.figure.html#matplotlib.pyplot.figure 这里主要是探索下散点图绘制。 1. 首先是导入包
阅读全文
摘要:random中的主要函数有: random.random():获取一个随机的浮点数,范围是在0.0~1.0之间 random.uniform():uniform(self, a, b) —— 产生区间内的随机浮点数 random.randint():randint(self, a, b) —— 生成
阅读全文
摘要:简单一点吧,太长了看不下去。。。。 copy.copy:浅拷贝,只拷贝父元素,不会拷贝子元素(的引用)。copy.deepcopy: 深拷贝,拷贝父元素及其子元素(的引用)。 或许,例子更快一些: import copy s1 = [1, 2, 3, [4, 5], '666'] print(s1)
阅读全文
摘要:itertools.product:类似于求多个可迭代对象的笛卡尔积。 使用的形式是: itertools.product(*iterables, repeat=1), product(X, repeat=3)等价于product(X, X, X)。 1. 直接使用时:分别生成元组,然后合成一个li
阅读全文
摘要:生活中有很多需要用到关联图的地方,至少我认为的是这样的图:https://www.echartsjs.com/examples/zh/editor.html?c=graph-npm 我是在使用Word2Vec计算关联词的余弦距离之后,想要更好的展示出来的时候,遇到的这种情况,就做了下拓展。 画图的步
阅读全文
摘要:在Python中,json指的是符合json语法格式的字符串,可以单行或者多行。 它可以方便的在使用在多种语言中,这里介绍的是在python中的字典(dict)与json字符串相互转化的方式。 1. 导入json包 import json 2. 初始化一个字典数据 dict_ = { 'name':
阅读全文
摘要:在进行模型训练的时候经常会遇到这三个参数:batch_size、epoch和iterations,那么它们之间的关系是怎样的呢? 首先,产生的原因主要是: 1. 原本的大批量梯度下降训练时,每次要处理完所有数据才更新梯度和损失值,需要的时间太长,计算开销大。 2. 但是呢,每次计算一个数据,就更新一
阅读全文
摘要:Python中,数组array和列表list的转换很直接。 import numpy as np 1. 首先建立list aaa = [[1,2,3],[4,5,6],[7,8,9],[10,11,12]] 2. list转array,使用np.array() bbb = np.array(aaa)
阅读全文
摘要:Pandas的Series和DataFrame数据均可以使用索引取值。 1. 首先导入库文件 import pandas as pd 2. 创建DataFrame # 1. 创建DataFrame df_1 = pd.DataFrame([['Jack','M',40],['Tony','M',20
阅读全文
摘要:Pandas的apply函数用起来很方便,特别是与groupby、lambda结合使用时更简便。 1. 首先创建DataFrame数据: import pandas as pd import numpy as np df = pd.DataFrame({'name':['Jack','Alex','
阅读全文
摘要:1. 在使用pyinstaller打包代码成exe文件时,出现No module named 'Crypto.Math' 错误的原因应该是:现在名称换了。 解决方法是: pip uninstall crypto pip uninstall pycryptodome pip install pycry
阅读全文
摘要:安装PyQt5的时候出现:ERROR: Could not install packages due to an EnvironmentError: [WinError 5] 拒绝访问。 1. 先说解决方案(加上 '--user'): pip install --user PyQt5 -i http
阅读全文
摘要:pyspark创建RDD的方式主要有两种,一种是通过spark.sparkContext.textFile 或者 sparkContext.textFile读取生成RDD数据;另一种是通过spark.sparkContext.parallelize创建RDD数据。 1. 首先导入库和进行环境配置(使
阅读全文
摘要:pyspark可以直接将DataFrame格式数据转成table,也可在程序中执行sql代码。 1. 首先导入库和环境,os.environ在系统中有多个python版本时需要设置 import os from pyspark import SparkContext, SparkConf from
阅读全文
摘要:pyspark可用于读取textfile格式的hive表格。 1. 查看hive表的属性方法(在hive或者spark-sql命令行均可): 查询建表信息: show create table database_name.table_name; 查询表的属性信息 (可看到表的格式信息例如,Input
阅读全文
摘要:弹性分布式数据集(RDD)是一组不可变的JVM对象的分布集,可以用于执行高速运算,它是Apache Spark的核心。 在pyspark中获取和处理RDD数据集的方法如下: 1. 首先是导入库和环境配置(本测试在linux的pycharm上完成) import os from pyspark imp
阅读全文
摘要:parquet数据:列式存储结构,由Twitter和Cloudera合作开发,相比于行式存储,其特点是: 可以跳过不符合条件的数据,只读取需要的数据,降低IO数据量; 压缩编码可以降低磁盘存储空间,使用更高效的压缩编码节约存储空间; 只读取需要的列,支持向量运算,能够获取更好的扫描性能。 那么我们怎
阅读全文
摘要:python求时间差主要是用的datetime包,包括同一天情形下的时间差和不同天情形下的时间差。 from datetime import datetime, date 1. 同一天情形下的时间差(秒)seconds ,分钟由秒数除以60即可 #计算时间差的分钟数 # 同一天的时间差 time_1
阅读全文
摘要:pandas的索引操作可以快速的完成多种功能。 import pandas as pd import numpy as np 1. 首先pandas创建DataFrame,创建DataFrame格式数据有多种方式,可以使用数组、列表、字典等; df_1 = pd.DataFrame([['Jack'
阅读全文
摘要:pandas的concat函数用于连接两个DataFrame数据,drop函数用于删除DataFrame数据中的行或者列。 首先导入需要的库 pandas和numpy: import pandas as pd import numpy as np 1. 创建DataFrame,可以使用数组或者列表、
阅读全文
摘要:mysql语句的书写顺序和执行顺序有很大差异。 书写顺序,mysql的一般书写顺写为: select <要返回的数据列> from <表名> <join, left join, right join...> join <join表> on <join条件> where <where条件> group
阅读全文