07 2022 档案

摘要:import pandas as pd import numpy as np import os # pip install html5lib -i https://pypi.tuna.tsinghua.edu.cn/simple/ #创建DataFrame np.random.seed(10) # 阅读全文
posted @ 2022-07-25 09:50 半个程序猿Cohen_Lee 阅读(343) 评论(0) 推荐(0) 编辑
摘要:https://blog.csdn.net/m0_46412065/article/details/107324827 Series对象和DataFrame的列数据提供了cat、dt、str三种属性接口(accessors),分别对应分类数据、日期时间数据和字符串数据,通过这几个接口可以快速实现特定 阅读全文
posted @ 2022-07-18 22:35 半个程序猿Cohen_Lee 阅读(161) 评论(0) 推荐(0) 编辑
摘要:Pyspark 案例实践 假新闻分类 https://blog.csdn.net/Amecc_ooy/article/details/122545707?ops_request_misc=%257B%2522request%255Fid%2522%253A%252216569895861678168 阅读全文
posted @ 2022-07-05 16:53 半个程序猿Cohen_Lee 阅读(118) 评论(0) 推荐(0) 编辑
摘要:正则表达式 search 联系 身份证号抽取 import re vstr = '130省427市1994年05月05日3330随即编号' res = re.search('(\d{1,})省(\d{1,})市',vstr) print(res.group()) print(res.group(1) 阅读全文
posted @ 2022-07-05 10:23 半个程序猿Cohen_Lee 阅读(23) 评论(0) 推荐(0) 编辑
摘要:选择技术 Pyspark + hive 制定项目 计划spark+hive离线数仓项目 根据b站学习,做笔记,demo项目 项目效果: https://www.jianshu.com/p/feca6ab96cb1 阅读全文
posted @ 2022-07-05 09:45 半个程序猿Cohen_Lee 阅读(19) 评论(0) 推荐(0) 编辑
摘要:首先直接上结论: —–我们寻常意义的复制就是深复制,即将被复制对象完全再复制一遍作为独立的新个体单独存在。所以改变原有被复制对象不会对已经复制出来的新对象产生影响。 —–而浅复制并不会产生一个独立的对象单独存在,他只是将原有的数据块打上一个新标签,所以当其中一个标签被改变的时候,数据块就会发生变化, 阅读全文
posted @ 2022-07-04 15:36 半个程序猿Cohen_Lee 阅读(30) 评论(0) 推荐(0) 编辑
摘要:引用链接 :https://pandas.pydata.org/pandas-docs/version/0.23.4/generated/pandas.cut.html 用途 pandas.cut用来把一组数据分割成离散的区间。比如有一组年龄数据,可以使用pandas.cut将年龄数据分割成不同的年 阅读全文
posted @ 2022-07-04 15:20 半个程序猿Cohen_Lee 阅读(397) 评论(0) 推荐(0) 编辑
摘要:describe() print('profile连续属性:','\n',df.describe()) print('profile离散属性:','\n',df.describe(include='object')) 函数自动计算的字段有count(非空值数)、unique(唯一值数)、top(频数 阅读全文
posted @ 2022-07-04 15:15 半个程序猿Cohen_Lee 阅读(30) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示