摘要: 正则表达式 search 联系 身份证号抽取 import re vstr = '130省427市1994年05月05日3330随即编号' res = re.search('(\d{1,})省(\d{1,})市',vstr) print(res.group()) print(res.group(1) 阅读全文
posted @ 2022-07-05 10:23 半个程序猿Cohen_Lee 阅读(20) 评论(0) 推荐(0) 编辑
摘要: 选择技术 Pyspark + hive 制定项目 计划spark+hive离线数仓项目 根据b站学习,做笔记,demo项目 项目效果: https://www.jianshu.com/p/feca6ab96cb1 阅读全文
posted @ 2022-07-05 09:45 半个程序猿Cohen_Lee 阅读(18) 评论(0) 推荐(0) 编辑
摘要: 首先直接上结论: —–我们寻常意义的复制就是深复制,即将被复制对象完全再复制一遍作为独立的新个体单独存在。所以改变原有被复制对象不会对已经复制出来的新对象产生影响。 —–而浅复制并不会产生一个独立的对象单独存在,他只是将原有的数据块打上一个新标签,所以当其中一个标签被改变的时候,数据块就会发生变化, 阅读全文
posted @ 2022-07-04 15:36 半个程序猿Cohen_Lee 阅读(27) 评论(0) 推荐(0) 编辑
摘要: 引用链接 :https://pandas.pydata.org/pandas-docs/version/0.23.4/generated/pandas.cut.html 用途 pandas.cut用来把一组数据分割成离散的区间。比如有一组年龄数据,可以使用pandas.cut将年龄数据分割成不同的年 阅读全文
posted @ 2022-07-04 15:20 半个程序猿Cohen_Lee 阅读(368) 评论(0) 推荐(0) 编辑
摘要: describe() print('profile连续属性:','\n',df.describe()) print('profile离散属性:','\n',df.describe(include='object')) 函数自动计算的字段有count(非空值数)、unique(唯一值数)、top(频数 阅读全文
posted @ 2022-07-04 15:15 半个程序猿Cohen_Lee 阅读(29) 评论(0) 推荐(0) 编辑
摘要: pandas所有方法学习 https://cankaoshouce.com/pandas-dataframes/pandas-ref-dataframe.html 阅读全文
posted @ 2022-06-30 11:46 半个程序猿Cohen_Lee 阅读(95) 评论(0) 推荐(0) 编辑
摘要: 引用链接https://www.jianshu.com/p/80c98ae72db2 在pyspark中的vector有两种类型,一种是DenseVector,其与一般的列表或者array数组形式非常相似;另一种则是SparseVector,这种vector在保存数据的时候保存三个信息:向量长度,向 阅读全文
posted @ 2022-06-30 11:06 半个程序猿Cohen_Lee 阅读(260) 评论(0) 推荐(0) 编辑
摘要: 在命令行上创建新的存储库 echo "# EY_general_python_item" >> README.md git init git add README.md git commit -m "first commit" git branch -M main git remote add or 阅读全文
posted @ 2022-06-30 11:02 半个程序猿Cohen_Lee 阅读(24) 评论(0) 推荐(0) 编辑
摘要: ##Hadoop ###集群开启命令 start-all.sh mapred --daemon start historyserver ##hive 启动beeline模式:./beeline -u jdbc:hive2://node1:10000 -n atguigu 启动hiveservice2 阅读全文
posted @ 2022-06-21 10:26 半个程序猿Cohen_Lee 阅读(23) 评论(0) 推荐(0) 编辑
摘要: Spark #安装Anaconda3 一、 上传 Anaconda3-2021.05-Linux-x86_64.sh 到 /export/server/ 二、 安装Anaconda3-2021.05-Linux-x86_64.sh sh Anaconda3-2021.05-Linux-x86_64. 阅读全文
posted @ 2022-06-06 14:53 半个程序猿Cohen_Lee 阅读(114) 评论(0) 推荐(0) 编辑