07 2022 档案

Pandas 常用基础API

摘要：import pandas as pd import numpy as np import os # pip install html5lib -i https://pypi.tuna.tsinghua.edu.cn/simple/ #创建DataFrame np.random.seed(10) # 阅读全文

posted @ 2022-07-25 09:50 半个程序猿Cohen_Lee 阅读(343) 评论(0) 推荐(0) 编辑

Series dt

摘要：https://blog.csdn.net/m0_46412065/article/details/107324827 Series对象和DataFrame的列数据提供了cat、dt、str三种属性接口（accessors），分别对应分类数据、日期时间数据和字符串数据，通过这几个接口可以快速实现特定阅读全文

posted @ 2022-07-18 22:35 半个程序猿Cohen_Lee 阅读(161) 评论(0) 推荐(0) 编辑

pyspark项目

摘要：Pyspark 案例实践假新闻分类 https://blog.csdn.net/Amecc_ooy/article/details/122545707?ops_request_misc=%257B%2522request%255Fid%2522%253A%252216569895861678168 阅读全文

posted @ 2022-07-05 16:53 半个程序猿Cohen_Lee 阅读(118) 评论(0) 推荐(0) 编辑

正则表达式联系

摘要：正则表达式 search 联系身份证号抽取 import re vstr = '130省427市1994年05月05日3330随即编号' res = re.search('(\d{1,})省(\d{1,})市',vstr) print(res.group()) print(res.group(1) 阅读全文

posted @ 2022-07-05 10:23 半个程序猿Cohen_Lee 阅读(23) 评论(0) 推荐(0) 编辑

2022年7月bench学习计划

摘要：选择技术 Pyspark + hive 制定项目计划spark+hive离线数仓项目根据b站学习,做笔记,demo项目项目效果: https://www.jianshu.com/p/feca6ab96cb1 阅读全文

posted @ 2022-07-05 09:45 半个程序猿Cohen_Lee 阅读(19) 评论(0) 推荐(0) 编辑

深拷贝和浅拷贝

摘要：首先直接上结论： —–我们寻常意义的复制就是深复制，即将被复制对象完全再复制一遍作为独立的新个体单独存在。所以改变原有被复制对象不会对已经复制出来的新对象产生影响。 —–而浅复制并不会产生一个独立的对象单独存在，他只是将原有的数据块打上一个新标签，所以当其中一个标签被改变的时候，数据块就会发生变化，阅读全文

posted @ 2022-07-04 15:36 半个程序猿Cohen_Lee 阅读(30) 评论(0) 推荐(0) 编辑

pandas.cut用来把一组数据分割成离散的区间

摘要：引用链接 :https://pandas.pydata.org/pandas-docs/version/0.23.4/generated/pandas.cut.html 用途 pandas.cut用来把一组数据分割成离散的区间。比如有一组年龄数据，可以使用pandas.cut将年龄数据分割成不同的年阅读全文

posted @ 2022-07-04 15:20 半个程序猿Cohen_Lee 阅读(397) 评论(0) 推荐(0) 编辑

pandas -API

摘要：describe() print('profile连续属性:','\n',df.describe()) print('profile离散属性:','\n',df.describe(include='object')) 函数自动计算的字段有count（非空值数）、unique（唯一值数）、top（频数阅读全文

posted @ 2022-07-04 15:15 半个程序猿Cohen_Lee 阅读(30) 评论(0) 推荐(0) 编辑

公告

昵称：半个程序猿Cohen_Lee
园龄： 4年10个月
粉丝： 2
关注： 9

没有风的夜

07 2022 档案

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

文章分类

GIT 命令

Hive - SQL

Java

Kafka

Linux命令

PySpark

python 用法技巧

Python画图

Shell命令

sql

大数据开发学习路线

机器学习

简历网站

爬虫

数仓学习

数据处理pandas技巧

数据开发面试2

数据开发面试准备

未分类

阅读排行榜

推荐排行榜