攻城狮科学家

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

Cannect to Cassandra:

用spark-cassandra-connector, 注意spark,cassandra和connector的版本要配套,Cassandra至少要版本2以上

use this blog example:

https://www.codementor.io/data-science/tutorial/installing-cassandra-spark-linux-debian-ubuntu-14

 

用sbt编译的方法搞定spark连接cassandra

文件夹下建立test.sbt文件

name:="spark sameple"  (任意)

version:="1.4"

scalaVersion:="2.10.1"

libraryDependencies:="org.apache.spark" %% "spark-core" %"1.4.0"

libraryDependencies:="com.datastax.spark"%%"spark-cassandra-connector"%"1.4.0-M3"

 

建立src/main/scala目录

运行sbt,第一次会等很久,下载一些包

出来 > 号就成功

运行complie

运行package

出来jar包地址

在spark端运行

./spark-submit --class "SparkTest" (包里的object名)  --master spark://Master.Hadoop:7077 --jars /usr/spark/lib/spark-cassandra-connector-assembly-1.4.0-SNAPSHOT.jar /home/... /*.jar

results come out~

 

会有multiple jar definition的问题,不用管。

exception in thread main com/datastax/spark/connector/rdd/reader/RowReaderFactory 

这种错误解决办法就是把库文件加入 --jars 解决

 

posted on 2015-12-08 14:50  攻城狮科学家  阅读(388)  评论(0编辑  收藏  举报