摘要:
KafkaStreaming.scala文件 JournalArticleDataManagerAdd.scala文件 KafkaManagerAdd.scala文件 SolrAdd.scala文件 阅读全文
摘要:
createDirectStream方式需要自己维护offset,使程序可以实现中断后从中断处继续消费数据。 KafkaManager.scala 主程序中 阅读全文
摘要:
爬科学基金共享服务网中基金数据 阅读全文
摘要:
编辑Spark中conf中配置文件log4j.properties 设置日志级别为WARN,即:log4j.rootCategory=WARN, console 阅读全文
摘要:
情景: 利用Solr做一批词的逆文档频率。Solr中存储的每条数据为一篇文章,此时需要查出某词在多少篇文章中出现过,然后用公式:某词逆文档频率 = 总文章数 / (出现过某词的文章数+1) 来计算。 以下两幅图为两种搜索方式的搜索结果对比: 结果:对某词进行搜索时,将某词用英文双引号括起来就是精确搜 阅读全文
摘要:
import scalaj.http.Http class SolrAdd () {// 方法接受两个参数,dataType为数据集名称,jsonString为数据json字符串 def postToSolr (dataType:String, jsonString: String): Unit = {// 字符串拼接 var data = "{'add':{ 'doc':" + ... 阅读全文
摘要:
SparkStreaming拉取Kafka中数据,处理后入库。整个流程速度很慢,除去代码中可优化的部分,也在spark集群中找原因。 发现: 集群在处理数据时存在移动数据与移动计算的区别,也有些其他叫法,如:数据本地化、计算本地化、任务本地化等。 自己简单理解: 假设集群有6个节点,来了一批数据共1 阅读全文
摘要:
执行stop-all.sh时,出现报错:no org.apache.spark.deploy.master.Master to stop,no org.apache.spark.deploy.worker.Worker to stop 原因: Spark的停止,是通过一些.pid文件来操作的。 查看 阅读全文