摘要: 需求:spark 可以直接使用 textFile 读取 HDFS,但是不能判断 hdfs 文件是否存在,不过 pyspark 可以调用 java 程序,因此可以调用 FileSystem来实现: # coding=utf-8 from pyspark import SparkContext sc = 阅读全文
posted @ 2021-12-26 21:47 Hubery_Jun 阅读(1160) 评论(0) 推荐(0) 编辑
摘要: 需求:一次插入多条,获取每条记录的自增 ID # coding=utf-8 import traceback import pymysql db = pymysql.connect( host='localhost', port=3306, user="root", password="pwd", 阅读全文
posted @ 2021-12-26 21:47 Hubery_Jun 阅读(1462) 评论(0) 推荐(0) 编辑
摘要: 散列表(Hash table,也叫哈希表),是根据关键码值(Key value)而直接进行访问的数据结构。也就是说,它通过把关键码值映射到表中一个位置来访问记录,以加快查找的速度。这个映射函数叫做散列函数,存放记录的数组叫做散列表 # coding=utf-8 """ 需求:读取文件,每行为一段 j 阅读全文
posted @ 2021-12-26 21:46 Hubery_Jun 阅读(129) 评论(0) 推荐(0) 编辑