摘要: 1. PySpark 是 Spark 为 Python 开发者提供的 API。 2. 基于PySpark的分布式项目主要由三部分组成,如图1所示,我们在开发自己的分布式程序时,只需要关注两部分,1是开发自己项目的PySpark代码,2是将该代码运行需要的环境进行打包。 下面的countNum.py即 阅读全文
posted @ 2024-05-27 15:29 是我菜了 阅读(30) 评论(0) 推荐(0) 编辑
摘要: 连接mysqlmysql -u algorithm -h xxx -P 11234 -pxxx 添加索引alter table wiki_update_info add index idx_url(url);查看阻塞进程 select * from information_schema.innodb 阅读全文
posted @ 2024-05-27 15:15 是我菜了 阅读(4) 评论(0) 推荐(0) 编辑
摘要: hdfs dfs -mkdir /home/hdp-ait/wangwei22hdfs dfs -ls /home/hdp-ait/wangwei22hdfs dfs -du -h /home/hdp-ait/wangwei22hdfs dfs -touchz /home/hdp-ait/wangw 阅读全文
posted @ 2024-05-27 14:56 是我菜了 阅读(1) 评论(0) 推荐(0) 编辑
摘要: 1、拉取该镜像sudo docker pull ml-harbor.ops.qianxin-inc.cn/qaxgpt/transformers-pytorch-deepspeed-latest-gpu-ww-fa:latest2、创建容器,运行该镜像sudo docker run -t -i ml 阅读全文
posted @ 2024-05-27 14:55 是我菜了 阅读(14) 评论(0) 推荐(0) 编辑