2017 年 5月随笔档案 - 大葱拌豆腐

本地项目提交到github或者gitlab

摘要：在 gitlab中创建新项目创建好之后会生成一个.Git路径切换回本地工程文件目录添加远程关联推送到远程仓库上面都完成后会得到如下： 1 产生本地分支master 2.与本地仓库关联的远程仓库origin 3.与本地分支关联的远程分支master 4.本地代码全部提交到了远程仓库，其他人可阅读全文

posted @ 2017-05-22 23:58 大葱拌豆腐阅读(446) 评论(0) 推荐(0) 编辑

运行HBase应用开发程序产生异常，提示信息包含org.apache.hadoop.hbase.ipc.controller.ServerRpcControllerFactory的解决办法

摘要：Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties Exception in thread "main" java.io.IOException: java.lang.reflect.Invo 阅读全文

posted @ 2017-05-16 17:12 大葱拌豆腐阅读(4703) 评论(0) 推荐(0) 编辑

Spark中ml和mllib的区别

摘要：转载自：https://vimsky.com/article/3403.html Spark中ml和mllib的主要区别和联系如下： ml和mllib都是Spark中的机器学习库，目前常用的机器学习功能2个库都能满足需求。 spark官方推荐使用ml, 因为ml功能更全面更灵活，未来会主要支持ml，阅读全文

posted @ 2017-05-16 13:39 大葱拌豆腐阅读(10834) 评论(0) 推荐(0) 编辑

spark mllib和ml类里面的区别

摘要：mllib是老的api，里面的模型都是基于RDD的，模型使用的时候api也是有变化的(model这里是naiveBayes)，（1：在模型训练的时候是naiveBayes.run(data: RDD[LabeledPoint])来训练的，run之后的返回值是一个NaiveBayesModel对象，阅读全文

posted @ 2017-05-16 12:48 大葱拌豆腐阅读(1568) 评论(0) 推荐(0) 编辑

Spark Streaming带状态更新

摘要：带状态的更新是使用的updateStateByKey方法，里面传入一个函数，函数要自己写，注意需要设置checkpoint 阅读全文

posted @ 2017-05-16 12:44 大葱拌豆腐阅读(503) 评论(0) 推荐(0) 编辑

统计web日志里面一个时间段的get请求数量

摘要：日志数据：阅读全文

posted @ 2017-05-16 12:41 大葱拌豆腐阅读(934) 评论(0) 推荐(0) 编辑

spark2.1.1创建Pipeline

摘要：Pipeline 为流程，是Spark创建机器学习的一个流程控制的类下面直接贴出创建的代码，以及整个流程第一种：第二种：阅读全文

posted @ 2017-05-16 12:36 大葱拌豆腐阅读(887) 评论(0) 推荐(0) 编辑

Spark Streaming里面使用文本分析模型

摘要：功能：接收来自kafka的数据，数据是一篇文章，来判断文章的类型，把判断的结果一并保存到Hbase，并把文章建立索引（没有代码只有一个空壳，可以自己实现，以后有机会了可能会补上）代码实现：阅读全文

posted @ 2017-05-16 11:59 大葱拌豆腐阅读(1018) 评论(0) 推荐(0) 编辑

Spark中文文本分析建模

摘要：实用的朴素贝叶斯模型建模建模过程主要是把文本转化成向量然后再作分析数据格式：阅读全文

posted @ 2017-05-16 11:55 大葱拌豆腐阅读(2061) 评论(0) 推荐(0) 编辑

Spark机器学习

摘要：这篇文章参考《Spark快速大数据分析》，归纳spark技术核心的rdd及MLlib以及其中几个重要库的使用。初始化操作 spark shell: bin/pyspark 每个spark应用都由一个驱动器程序(driver program)来发起集群上的各种并行操作，驱动器程序包含应用的main函阅读全文

posted @ 2017-05-16 11:31 大葱拌豆腐阅读(1177) 评论(1) 推荐(0) 编辑

基于 Spark 的文本情感分析

摘要：转载自：https://www.ibm.com/developerworks/cn/cognitive/library/cc-1606-spark-seniment-analysis/index.html IBM 公司在 2015 年对外宣告了一个新的科技和商务时代的来临—认知时代。这个巨大的转变，阅读全文

posted @ 2017-05-16 10:54 大葱拌豆腐阅读(2319) 评论(0) 推荐(0) 编辑

Hadoop权限认证的执行流程

摘要：Hadoop分布式文件系统实现了一个和POSIX系统类似的文件和目录的权限模型。每个文件和目录有一个所有者（owner）和一个组（group）。文件或目录对其所有者、同组的其他用户以及所有其他用户分别有着不同的权限。对文件而言，当读取这个文件时需要有r权限，当写入或者追加到文件时需要有w权限。对目录阅读全文

posted @ 2017-05-09 20:19 大葱拌豆腐阅读(9533) 评论(0) 推荐(1) 编辑

Java API操作HA方式下的Hadoop

摘要：通过java api连接Hadoop集群时，如果集群支持HA方式，那么可以通过如下方式设置来自动切换到活动的master节点上。其中，ClusterName 是可以任意指定的，跟集群配置无关，dfs.ha.namenodes.ClusterName也可以任意指定名称，有几个master就写几个，后面阅读全文

posted @ 2017-05-09 19:51 大葱拌豆腐阅读(3356) 评论(0) 推荐(0) 编辑

05 2017 档案

公告

搜索

常用链接

我的标签

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论