05 2017 档案
摘要:在 gitlab中创建新项目 创建好之后会生成一个.Git路径 切换回本地工程文件目录 添加远程关联 推送到远程仓库 上面都完成后会得到如下: 1 产生本地分支master 2.与本地仓库关联的远程仓库origin 3.与本地分支关联的远程分支master 4.本地代码全部提交到了远程仓库,其他人可
阅读全文
摘要:Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties Exception in thread "main" java.io.IOException: java.lang.reflect.Invo
阅读全文
摘要:转载自:https://vimsky.com/article/3403.html Spark中ml和mllib的主要区别和联系如下: ml和mllib都是Spark中的机器学习库,目前常用的机器学习功能2个库都能满足需求。 spark官方推荐使用ml, 因为ml功能更全面更灵活,未来会主要支持ml,
阅读全文
摘要:mllib是老的api,里面的模型都是基于RDD的,模型使用的时候api也是有变化的(model这里是naiveBayes), (1:在模型训练的时候是naiveBayes.run(data: RDD[LabeledPoint])来训练的,run之后的返回值是一个NaiveBayesModel对象,
阅读全文
摘要:带状态的更新是使用的updateStateByKey方法,里面传入一个函数,函数要自己写,注意需要设置checkpoint
阅读全文
摘要:Pipeline 为流程,是Spark创建机器学习的一个流程控制的类 下面直接贴出创建的代码,以及整个流程 第一种: 第二种:
阅读全文
摘要:功能:接收来自kafka的数据,数据是一篇文章,来判断文章的类型,把判断的结果一并保存到Hbase,并把文章建立索引(没有代码只有一个空壳,可以自己实现,以后有机会了可能会补上) 代码实现:
阅读全文
摘要:实用的朴素贝叶斯模型建模 建模过程主要是把文本转化成向量然后再作分析 数据格式:
阅读全文
摘要:这篇文章参考《Spark快速大数据分析》,归纳spark技术核心的rdd及MLlib以及其中几个重要库的使用。 初始化操作 spark shell: bin/pyspark 每个spark应用都由一个驱动器程序(driver program)来发起集群上的各种并行操作,驱动器程序包含应用的main函
阅读全文
摘要:转载自:https://www.ibm.com/developerworks/cn/cognitive/library/cc-1606-spark-seniment-analysis/index.html IBM 公司在 2015 年对外宣告了一个新的科技和商务时代的来临—认知时代。这个巨大的转变,
阅读全文
摘要:Hadoop分布式文件系统实现了一个和POSIX系统类似的文件和目录的权限模型。每个文件和目录有一个所有者(owner)和一个组(group)。文件或目录对其所有者、同组的其他用户以及所有其他用户分别有着不同的权限。对文件而言,当读取这个文件时需要有r权限,当写入或者追加到文件时需要有w权限。对目录
阅读全文
摘要:通过java api连接Hadoop集群时,如果集群支持HA方式,那么可以通过如下方式设置来自动切换到活动的master节点上。其中,ClusterName 是可以任意指定的,跟集群配置无关,dfs.ha.namenodes.ClusterName也可以任意指定名称,有几个master就写几个,后面
阅读全文