2019 年 11月 21 日随笔档案 - 睡觉了嘛

2019年11月21日

摘要： split 对列表进行切割，然后生产新的列表 from pyspark.sql.functions import split# 对 key列按照 0-9之间的数字进行风格重新命名为 s df.select(split(df.key, '[0-9]+').alias('s'))df1 = df.se 阅读全文

posted @ 2019-11-21 15:16 睡觉了嘛阅读(3629) 评论(0) 推荐(0) 编辑

kafka消费者

摘要： from kafka import KafkaConsumer,TopicPartition import json scrapy_kafka_hosts = ["ip:端口", "ip:端口"] topic = 'wangliang_test' consumer = KafkaConsumer(b 阅读全文

posted @ 2019-11-21 14:05 睡觉了嘛阅读(366) 评论(0) 推荐(0) 编辑

kafka生产者

摘要： from kafka import KafkaProducer import json scrapy_kafka_hosts = ["ip1:端口", "ip2:端口"] topic = 'wangliang_test' # 主题 producer = KafkaProducer(bootstrap 阅读全文

posted @ 2019-11-21 13:57 睡觉了嘛阅读(113) 评论(0) 推荐(0) 编辑

Pyspark常用API总结

摘要： DF 类似于二维表的数据结果 mame age 狗山石 23 获取df的列名: df.columns显示当前值打印 df.show() show(2) show括号里面传入参数可以显示查看几行 show(2,False) False 是否全部显示 False 不隐藏获取前10行数据 df.lim 阅读全文

posted @ 2019-11-21 13:33 睡觉了嘛阅读(2455) 评论(0) 推荐(0) 编辑

睡觉了嘛

公告