spark - 随笔分类 - 算法浪客

Java与Scala混合编程

摘要：1、目录结构如图 2、Java代码 package main.java.work; import main.scala.core.wc_count; public class callScala { public static void main(String[] args){ System.out 阅读全文

posted @ 2022-05-18 22:08 算法浪客阅读(639) 评论(0) 推荐(0) 编辑

python dask 搭建分布式集群

摘要：1、分布式版本安装步骤 1.conda安装：conda install dask distributed-cconda-forge 2.pip 安装：pip install dask distributed --upgrade 3.source安装： git clone https://github 阅读全文

posted @ 2020-10-15 15:08 算法浪客阅读(1661) 评论(0) 推荐(0) 编辑

scala spark2.0 rdd dataframe 分布式计算欧式距离

摘要：1、配置文件 package config import org.apache.spark.sql.SparkSession import org.apache.spark.{SparkConf, SparkContext} case object conf { private val master 阅读全文

posted @ 2020-04-03 16:41 算法浪客阅读(767) 评论(0) 推荐(1) 编辑

scala spark dataframe 修改字段类型

摘要：package classifierAlg import config.conf.{sc, spark_session} import config.conf.spark_session.implicits._ import org.apache.spark.sql.functions._ impo 阅读全文

posted @ 2020-04-03 11:37 算法浪客阅读(2872) 评论(0) 推荐(1) 编辑

scala spark2.0 sparksql 连接mysql8.0 操作多表使用 dataframe 及RDD进行数据处理

摘要：1、配置文件 package config import org.apache.spark.sql.SparkSession import org.apache.spark.{SparkConf, SparkContext} case object conf { private val master 阅读全文

posted @ 2020-04-03 00:55 算法浪客阅读(897) 评论(0) 推荐(0) 编辑

spark2.0 连接mysql8.0数据库操作表数据

摘要：package operationMysql import config.conf.{sc, spark_session} import org.apache.spark.sql.DataFrame object readingMysqlOperation { def main(args: Arra 阅读全文

posted @ 2020-04-02 23:35 算法浪客阅读(568) 评论(0) 推荐(0) 编辑

spark2.0以上 RDD 转 dataframe 及数据处理 ERROR Executor:91 - Exception in task 1.0 in stage 0.0 (TID 1) java.lang.NumberFormatException: empty String

摘要：1、配置文件 package config import org.apache.spark.sql.SparkSession import org.apache.spark.{SparkConf, SparkContext} case object conf { private val master 阅读全文

posted @ 2020-04-02 22:33 算法浪客阅读(3446) 评论(0) 推荐(0) 编辑

scala 使用case 关键字定义类不需要创建对象直接调用

摘要：1、必须是使用case 定义object类阅读全文

posted @ 2019-06-06 22:25 算法浪客阅读(580) 评论(0) 推荐(0) 编辑

spark 2.3.3 的MLlib 使用API

摘要：1、api官网 http://spark.apache.org/docs/2.3.3/ml-guide.html 阅读全文

posted @ 2019-06-05 08:40 算法浪客阅读(432) 评论(0) 推荐(0) 编辑

java.lang.NoSuchMethodError: org.apache.spark.internal.Logging.

i n i t

$init$ (Lorg/apache/spark/internal/Logging;)V

摘要：1、sparkML的版本不对应请参考官网找到对于版本，比如我的 spark2.3.3 spark MLlib 也是2.3.3 阅读全文

posted @ 2019-06-04 21:22 算法浪客阅读(3234) 评论(0) 推荐(0) 编辑

成功秀了一波scala spark ML逻辑斯蒂回归

摘要：1、直接上官方代码，调整过的，方可使用 package com.test import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.mllib.classification.{LogisticRegressio 阅读全文

posted @ 2019-06-04 17:38 算法浪客阅读(698) 评论(0) 推荐(0) 编辑

scala Spark MLlib实现的中文文本分类–Naive Bayes

摘要：http://lxw1234.com/archives/2016/01/605.htm 阅读全文

posted @ 2019-06-04 16:58 算法浪客阅读(495) 评论(0) 推荐(0) 编辑

Command line is too long. Shorten command line for testMLDome1 or also for Application default configuration

摘要：在.idea文件夹中，更改workspace.xml文件加这段语句： <property name="dynamic.classpath" value="true" /> 到： <component name="PropertiesComponent"> . . . </component> 例：阅读全文

posted @ 2019-06-04 16:00 算法浪客阅读(4341) 评论(0) 推荐(0) 编辑

scala加载spark MLlib等所有相关jar的问题

摘要：1、找到spark安装目录 E:\spackLearn\spark-2.3.3-bin-hadoop2.7\jars 里面放的是spark的所有依赖jar包 2、从idea里面javalib导入即可调用里面的function 阅读全文

posted @ 2019-06-04 15:55 算法浪客阅读(806) 评论(0) 推荐(0) 编辑

pyspark的安装配置

摘要：1、搭建基本spark+Hadoop的本地环境 https://blog.csdn.net/u011513853/article/details/52865076?tdsourcetag=s_pcqq_aiomsg 2、下载对应的spark与pyspark的版本进行安装 https://pypi.o 阅读全文

posted @ 2019-06-04 10:03 算法浪客阅读(9868) 评论(1) 推荐(0) 编辑

随笔分类 - spark

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论