上一页 1 2 3 4 5 6 7 ··· 11 下一页
摘要: KafkaStreaming.scala文件 JournalArticleDataManagerAdd.scala文件 KafkaManagerAdd.scala文件 SolrAdd.scala文件 阅读全文
posted @ 2018-03-01 17:16 右介 阅读(3385) 评论(0) 推荐(0) 编辑
摘要: createDirectStream方式需要自己维护offset,使程序可以实现中断后从中断处继续消费数据。 KafkaManager.scala 主程序中 阅读全文
posted @ 2018-02-28 13:13 右介 阅读(3301) 评论(0) 推荐(0) 编辑
摘要: 爬科学基金共享服务网中基金数据 阅读全文
posted @ 2018-02-28 10:27 右介 阅读(1683) 评论(2) 推荐(0) 编辑
摘要: 编辑Spark中conf中配置文件log4j.properties 设置日志级别为WARN,即:log4j.rootCategory=WARN, console 阅读全文
posted @ 2018-01-30 11:29 右介 阅读(439) 评论(0) 推荐(0) 编辑
摘要: 情景: 利用Solr做一批词的逆文档频率。Solr中存储的每条数据为一篇文章,此时需要查出某词在多少篇文章中出现过,然后用公式:某词逆文档频率 = 总文章数 / (出现过某词的文章数+1) 来计算。 以下两幅图为两种搜索方式的搜索结果对比: 结果:对某词进行搜索时,将某词用英文双引号括起来就是精确搜 阅读全文
posted @ 2018-01-30 10:36 右介 阅读(848) 评论(0) 推荐(0) 编辑
摘要: import scalaj.http.Http class SolrAdd () {// 方法接受两个参数,dataType为数据集名称,jsonString为数据json字符串 def postToSolr (dataType:String, jsonString: String): Unit = {// 字符串拼接 var data = "{'add':{ 'doc':" + ... 阅读全文
posted @ 2018-01-29 10:33 右介 阅读(1117) 评论(0) 推荐(0) 编辑
摘要: SparkStreaming拉取Kafka中数据,处理后入库。整个流程速度很慢,除去代码中可优化的部分,也在spark集群中找原因。 发现: 集群在处理数据时存在移动数据与移动计算的区别,也有些其他叫法,如:数据本地化、计算本地化、任务本地化等。 自己简单理解: 假设集群有6个节点,来了一批数据共1 阅读全文
posted @ 2018-01-18 18:15 右介 阅读(2940) 评论(0) 推荐(0) 编辑
摘要: 执行stop-all.sh时,出现报错:no org.apache.spark.deploy.master.Master to stop,no org.apache.spark.deploy.worker.Worker to stop 原因: Spark的停止,是通过一些.pid文件来操作的。 查看 阅读全文
posted @ 2018-01-18 12:24 右介 阅读(2562) 评论(0) 推荐(0) 编辑
摘要: 报错的原因:删除已经使用过的kafka topic,然后新建同名topic 解决方法:把topic名字换一下 (有其他更好的解决方法,可以不修改topic名) 阅读全文
posted @ 2018-01-16 16:12 右介 阅读(1074) 评论(0) 推荐(0) 编辑
摘要: 提取html某标签中文字时,文字中含有:“<sub>2</sub>O<sub>5</sub>”,导致提取的文字不符合预期。 解决方法: 阅读全文
posted @ 2018-01-16 15:56 右介 阅读(23099) 评论(0) 推荐(1) 编辑
上一页 1 2 3 4 5 6 7 ··· 11 下一页