01 2022 档案
大三寒假第十七天(Kettle)
摘要:Kettle Spoon 是一款免费开源的、功能强大的ETL工具,纯 java 开发。可以在 Linux、windows、unix 中运行。有图形界面,也有命令脚本还可以二次开发。
阅读全文
大三寒假第十六天(逻辑斯蒂回归分类器)
摘要:一定要对文本数据集进行预处理 1.导入包 import org.apache.spark.ml.feature.PCA import org.apache.spark.sql.Row import org.apache.spark.ml.linalg.{Vector,Vectors} import
阅读全文
大三寒假第十五天(解决办法:分割的字符串前后有空格,和数组下标越界 index=0)
摘要:1.今天完成spark实验六 2.报错未解决 3.今天在学习spark机器学习库时遇到了很多小错误,例如分割的字符串前后空格,和数组下标越界 index=0 空格(我是在mysql中处理的空格) 数组下标越界(检查txt文件可能存在空行或不规范的行)
阅读全文
大三寒假第十四天
摘要:完成: 1.今天完成了flume的安装和使用 2.重新安装了 telnet ,(需要先启动xinetd 服务) 遇到的问题: 1.spark 版本过高,没有flume与之对应(重装) spark版本由3.2版本,降低到2.4.1版本 2.yum源出现问题,导致telent无法在线安装(通过rpm安装
阅读全文
SparkSQL 通过jdbc连接数据库/通过hive读写数据
摘要:通过jdbc连接数据库 spark-shell 带参数启动 spark-shell \ --jars /usr/spark/jars/mysql-connector-java-5.1.49-bin.jar \ --driver-class-path /usr/local/spark/jars/mys
阅读全文
大三寒假第十四天
摘要:目标: 1.今天开始做实验五 2.今天开始学习sparksql的相关内容 成果: 1.实验五已完成 2.sparksql学习了DataFrame的创建,从RDD转换得到DataFrame,通过JDBC连接Mysql数据库(DataFrame)
阅读全文