摘要: Pyspark 案例实践 假新闻分类 https://blog.csdn.net/Amecc_ooy/article/details/122545707?ops_request_misc=%257B%2522request%255Fid%2522%253A%252216569895861678168 阅读全文
posted @ 2022-07-05 16:53 半个程序猿Cohen_Lee 阅读(115) 评论(0) 推荐(0) 编辑
摘要: 正则表达式 search 联系 身份证号抽取 import re vstr = '130省427市1994年05月05日3330随即编号' res = re.search('(\d{1,})省(\d{1,})市',vstr) print(res.group()) print(res.group(1) 阅读全文
posted @ 2022-07-05 10:23 半个程序猿Cohen_Lee 阅读(20) 评论(0) 推荐(0) 编辑
摘要: 选择技术 Pyspark + hive 制定项目 计划spark+hive离线数仓项目 根据b站学习,做笔记,demo项目 项目效果: https://www.jianshu.com/p/feca6ab96cb1 阅读全文
posted @ 2022-07-05 09:45 半个程序猿Cohen_Lee 阅读(18) 评论(0) 推荐(0) 编辑