摘要: split 对列表进行切割,然后生产新的列表 from pyspark.sql.functions import split# 对 key列按照 0-9之间的数字进行风格 重新命名为 s df.select(split(df.key, '[0-9]+').alias('s'))df1 = df.se 阅读全文
posted @ 2019-11-21 15:16 睡觉了嘛 阅读(3629) 评论(0) 推荐(0) 编辑
摘要: from kafka import KafkaConsumer,TopicPartition import json scrapy_kafka_hosts = ["ip:端口", "ip:端口"] topic = 'wangliang_test' consumer = KafkaConsumer(b 阅读全文
posted @ 2019-11-21 14:05 睡觉了嘛 阅读(366) 评论(0) 推荐(0) 编辑
摘要: from kafka import KafkaProducer import json scrapy_kafka_hosts = ["ip1:端口", "ip2:端口"] topic = 'wangliang_test' # 主题 producer = KafkaProducer(bootstrap 阅读全文
posted @ 2019-11-21 13:57 睡觉了嘛 阅读(113) 评论(0) 推荐(0) 编辑
摘要: DF 类似于二维表的数据结果 mame age 狗山石 23 获取df的列名: df.columns显示当前值 打印 df.show() show(2) show括号里面传入参数可以显示查看几行 show(2,False) False 是否全部显示 False 不隐藏 获取前10行数据 df.lim 阅读全文
posted @ 2019-11-21 13:33 睡觉了嘛 阅读(2455) 评论(0) 推荐(0) 编辑