随笔档案「2020年12月」 - bug_x

scala spark streaming 打印kafka 数据

摘要：how-to-fix-java-io-notserializableexception-org-apache-kafka-clients-consumer The Kafka Consumer record object is received from Dstream. When you try 阅读全文

posted @ 2020-12-30 20:14 bug_x 阅读(434) 评论(0) 推荐(0)

Kafka 与 Flume 如何选择

摘要：采集层主要可以使用Flume, Kafka两种技术。 Flume：Flume 是管道流方式，提供了很多的默认实现，让用户通过参数部署，及扩展API. Kafka：Kafka是一个可持久化的分布式的消息队列。 Kafka 是一个非常通用的系统。你可以有许多生产者和很多的消费者共享多个主题Topics 阅读全文

posted @ 2020-12-29 10:31 bug_x 阅读(166) 评论(0) 推荐(0)

Scala map中下划线_._2的含义

摘要：查询了相关资料后，并做了基本测试，确认.map(_._2)的含义如下 map(_._n)表示任意元组tuple对象,后面的数字n表示取第几个数.(n>=1的整数)val p=List((“hello”,35,1.50),(“nihao”,36,1.78))res9: List[(String, In 阅读全文

posted @ 2020-12-28 16:48 bug_x 阅读(483) 评论(0) 推荐(0)

Spark中reduceByKey(_+_)的说明

摘要：比如我的内存中存在如下的以key-value形式的数据集（RDD）： hello:1 sparkSubmit:1 red:1 sparkSubmit:1 hello:2 hello:1 hello:4 red:1 red:1 red:1 ... ... reduceByKey的作用对象是(key, 阅读全文

posted @ 2020-12-28 14:04 bug_x 阅读(273) 评论(0) 推荐(0)

spark 内存设置

摘要：val spark = SparkSession .builder.master("local").config("spark.testing.memory", "2147480000") .appName("HdfsTest") .getOrCreate() val spark = SparkSe 阅读全文

posted @ 2020-12-24 14:17 bug_x 阅读(522) 评论(0) 推荐(0)

windows spark3.1 hdfs 测试

摘要：class SparkTest { } import java.util.concurrent.TimeUnit import org.apache.spark.sql.SparkSession object SparkDemo { def main(args: Array[String]) { p 阅读全文

posted @ 2020-12-24 13:34 bug_x 阅读(122) 评论(0) 推荐(0)

@Autowired、@Resource、和@Service注解详解

摘要：注解之前spring怎么装配bean 传统的Spring做法是使用.xml文件来对bean进行注入或者是配置aop、事务。我们先看一个不使用注解的Spring示例，在这个示例的基础上，改成注解版本的，这样也能看出使用与不使用注解之间的区别，先定义一个老师： public class Teacher{ 阅读全文

posted @ 2020-12-23 15:28 bug_x 阅读(426) 评论(0) 推荐(0)

Python 打印对象

摘要：使用dir(obj) 这将输出所有属性和方法 from io import BytesIO f=BytesIO() print('object:',f) print('details:',dir(f)) 输出 object: <_io.BytesIO object at 0x104168e08> d 阅读全文

posted @ 2020-12-23 09:56 bug_x 阅读(815) 评论(0) 推荐(0)

Python + logging 输出到屏幕，将log日志写入文件

摘要：logging函数根据它们用来跟踪的事件的级别或严重程度来命名。标准级别及其适用性描述如下（以严重程度递增排序）：级别何时使用 DEBUG 详细信息，一般只在调试问题时使用。 INFO 证明事情按预期工作。 WARNING 某些没有预料到的事件的提示，或者在将来可能会出现的问题提示。例如：磁盘空间阅读全文

posted @ 2020-12-21 16:29 bug_x 阅读(846) 评论(0) 推荐(0)

hdfs://前缀

摘要：HDFS适合做：存储大文件。上G、T甚至P。一次写入，多次读取。并且每次作业都要读取大部分的数据。搭建在普通商业机群上就可以了。虽然会经常宕机，但HDFS有良好的容错机制。 HDFS不适合做：实时数据获取。如果有这个需求可以用HBase。很多小文件。因为namenode要存储HDFS的me 阅读全文

posted @ 2020-12-17 14:22 bug_x 阅读(2306) 评论(0) 推荐(0)

Failed to retrieve data from /webhdfs/v1/?op=LISTSTATUS: Server Error

摘要：java 版本太高降低jdk版本阅读全文

posted @ 2020-12-16 20:08 bug_x 阅读(1329) 评论(0) 推荐(0)

How to set up logging level for Spark application in IntelliJ IDEA?

摘要：import org.apache.log4j.{Level, Logger} object MySparkApp { def main(args: Array[String]): Unit = { Logger.getLogger("org.apache.spark").setLevel(Leve 阅读全文

posted @ 2020-12-08 20:05 bug_x 阅读(128) 评论(0) 推荐(0)

导航

12 2020 档案