随笔分类 - 数据分析
摘要:1 import pandas as pd 2 import re #正则表达式 3 import seaborn as sns 4 from matplotlib import pyplot as plt 5 import jieba #分词 6 import jieba.analyse 7 im
阅读全文
摘要:预测2018年,11月和12月的销售额 1 import glob #读文件 2 import os #设置工作路径 3 import pandas as pd 4 import re #正则表达式 5 import numpy as np 6 import datetime as dt #时间包
阅读全文
摘要:一、步骤 1、处理数据:避免原数据被感染,将原数据copy,标记缺失值,用热力图,去掉多余的字段 2、清洗数据:copy处理的数据,然后进行删除字段和删除重复的字段 3、划分测试、训练集:copy 测试集和训练集,再给缺失的值里面填充中位数、众数 处理数据 1 #求补集(对应索引不一致的数据) 2
阅读全文
摘要:一、有监督学习和无监督学习区别 分类:有监督 聚类:无监督 二、kmeans 算法 #自己创建数据集 1 X, y = make_blobs(n_samples=500,n_features=2,centers=4,random_state=1) 2 plt.scatter(X[:, 0], X[:
阅读全文
摘要:一、knn 算法 1 import numpy as np 2 import pandas as pd 3 import matplotlib.pyplot as plt 4 from math import sqrt 5 6 plt.rcParams['font.sans-serif'] = ['
阅读全文
摘要:一、基本操作 1 r = np.ones(3) 2 r = np.zeros(3) 3 r = np.full(shape=[3,2],fill_value="5") 4 r = np.arange(start=0,stop=5,step=2) 5 r = np.random.randint(low
阅读全文
摘要:一、几天之后的日期 1 import datetime 2 3 str = "23/09/2021" 4 # 把字符串转成对象 5 toObj = datetime.datetime.strptime(str,'%d/%m/%Y') 6 # 2天之后的日期 7 result = toObj+date
阅读全文
摘要:一、坐标、网格、标题 1 import numpy as np 2 import pandas as pd 3 from sqlalchemy import create_engine 4 import matplotlib.pyplot as plt 5 6 x = np.linspace(0,2
阅读全文
摘要:pandas 连接数据库 1 import numpy as np 2 import pandas as pd 3 from sqlalchemy import create_engine 4 5 engine = create_engine("mysql+pymysql://root:100100
阅读全文
摘要:总结 1. Hive数据表分区、分桶的作用分区表产生不同的目录: 避免全表扫描分桶表产生不同的文件: jion 速度快 和 桶抽样 2. Hive常用的3复合数据类型及访问方式select * from emp_partitioninner join salariesonsalaries.emp_n
阅读全文
摘要:导入中文乱码解决方案 将csv 保存成utf-8的文件 ALTER TABLE user_info SET SERDEPROPERTIES ('serialization.encoding'='GBK'); 创建table 的巧妙方式 1 create table user_info as 2 se
阅读全文