右介 - 博客园

2018年3月1日

Spark streaming + Kafka 流式数据处理，结果存储至MongoDB、Solr、Neo4j（自用）

摘要： KafkaStreaming.scala文件 JournalArticleDataManagerAdd.scala文件 KafkaManagerAdd.scala文件 SolrAdd.scala文件阅读全文

posted @ 2018-03-01 17:16 右介阅读(3385) 评论(0) 推荐(0) 编辑

2018年2月28日

Spark createDirectStream 维护 Kafka offset（Scala）

摘要： createDirectStream方式需要自己维护offset，使程序可以实现中断后从中断处继续消费数据。 KafkaManager.scala 主程序中阅读全文

posted @ 2018-02-28 13:13 右介阅读(3301) 评论(0) 推荐(0) 编辑

Python 爬基金数据

摘要：爬科学基金共享服务网中基金数据阅读全文

posted @ 2018-02-28 10:27 右介阅读(1683) 评论(2) 推荐(0) 编辑

2018年1月30日

设置Spark日志级别

摘要：编辑Spark中conf中配置文件log4j.properties 设置日志级别为WARN，即：log4j.rootCategory=WARN, console 阅读全文

posted @ 2018-01-30 11:29 右介阅读(439) 评论(0) 推荐(0) 编辑

Solr的精确匹配搜索

摘要：情景：利用Solr做一批词的逆文档频率。Solr中存储的每条数据为一篇文章，此时需要查出某词在多少篇文章中出现过，然后用公式：某词逆文档频率 = 总文章数 / (出现过某词的文章数+1) 来计算。以下两幅图为两种搜索方式的搜索结果对比：结果：对某词进行搜索时，将某词用英文双引号括起来就是精确搜阅读全文

posted @ 2018-01-30 10:36 右介阅读(848) 评论(0) 推荐(0) 编辑

2018年1月29日

向Solr数据集提交Json格式数据（Scala，Post）

摘要： import scalaj.http.Http class SolrAdd () {// 方法接受两个参数，dataType为数据集名称，jsonString为数据json字符串 def postToSolr (dataType:String, jsonString: String): Unit = {// 字符串拼接 var data = "{'add':{ 'doc':" + ... 阅读全文

posted @ 2018-01-29 10:33 右介阅读(1117) 评论(0) 推荐(0) 编辑

2018年1月18日

Spark集群数据处理速度慢（数据本地化问题）

摘要： SparkStreaming拉取Kafka中数据，处理后入库。整个流程速度很慢，除去代码中可优化的部分，也在spark集群中找原因。发现：集群在处理数据时存在移动数据与移动计算的区别，也有些其他叫法，如：数据本地化、计算本地化、任务本地化等。自己简单理解：假设集群有6个节点，来了一批数据共1 阅读全文

posted @ 2018-01-18 18:15 右介阅读(2940) 评论(0) 推荐(0) 编辑

解决Spark集群无法停止

摘要：执行stop-all.sh时，出现报错：no org.apache.spark.deploy.master.Master to stop，no org.apache.spark.deploy.worker.Worker to stop 原因： Spark的停止，是通过一些.pid文件来操作的。查看阅读全文

posted @ 2018-01-18 12:24 右介阅读(2562) 评论(0) 推荐(0) 编辑

2018年1月16日

报错：numRecords must not be negative

摘要：报错的原因：删除已经使用过的kafka topic，然后新建同名topic 解决方法：把topic名字换一下（有其他更好的解决方法，可以不修改topic名）阅读全文

posted @ 2018-01-16 16:12 右介阅读(1074) 评论(0) 推荐(0) 编辑

Python Xpath 提取html整个元素（标签与内容）

摘要：提取html某标签中文字时，文字中含有：“<sub>2</sub>O<sub>5</sub>”，导致提取的文字不符合预期。解决方法：阅读全文

posted @ 2018-01-16 15:56 右介阅读(23099) 评论(0) 推荐(1) 编辑

右介

公告