08 2019 档案
摘要:1.稀里糊涂下载 我的集群是hadoop 2.7.3 ,本来想找到对应的mahout版本,但是没有找到。本着安全原则,mahout最新版本是0.14.0,回退一个版本使用0.13.0 mahout地址 2.安装后 一波操作:解压到D:Zoo和配置好环境变量后,运行报错!!! D:\Zoo\apach
阅读全文
摘要:今天发现自己POM变成了红橙色。 原因未知:看到上网有3~4种方法。尝试了一下都不行然后采用的换java jdk的方法,然后就解决了。 在设置中maven有几个属性。 1.改变java jre环境 也不知为什么,我的电脑上有三套java环境。 本来是idea内置的java环境。后来我改成了java_
阅读全文
摘要:1.定义 拉链表是一种数据库设计模,用于储存历史数据和分析时间维度的数据。 所谓拉链,就是记录历史。记录一个事物从开始,一直到当前状态的所有变化的信息。 关键点: 储存开始时间和结束时间。 开始时间和结束时间首尾相接,形成链式结构。 拉链表一般用于解决历史版本查询的问题,也可用于解决数值区间问题,查
阅读全文
摘要:1.数据集介绍 20newsgroups数据集是用于文本分类、文本挖据和信息检索研究的国际标准数据集之一。 数据集收集了大约20,000左右的新闻组文档,均匀分为20个不同主题的新闻组集合。 一些新闻组的主题特别相似(e.g. comp.sys.ibm.pc.hardware/ comp.sys.m
阅读全文
摘要:python环境是Anaconda3安装的,由于项目需要用到git的第三方包,但是在conda自带的环境中没有。 例如使用jieba分词库。 安装的三种方式: (1)全自动安装:`easy_install jieba` 或者 `pip install jieba` / `pip3 install j
阅读全文
摘要:一直用pycharm和jupyter。 今天发现打开IDEA 创建一个新的java项目(maven)后无法在里面的module中创建相应的java class文件 解决方案: (1)选择 File——>Project Structure——>Project Settings——>Modules:也可
阅读全文
摘要:1.Maven前置依赖 检查电脑是是否安装java 2.下载maven 网址 www.apache.org 解压 maven 压缩包, 并创建相应的maven本地仓库的路径。 打开 conf文件夹中 修改 settings.xml 文件 2.配置环境变量 maven已经完成了安装,我们可以通过DOS
阅读全文
摘要:Catalyst Optimizer: Dataset 数据集仅可用Scala或Java。但是,我们提供了以下上下文来更好地理解Spark 2.0的方向数据集是在2015年作为Apache Spark 1.6版本的一部分引入的。datasets的目标是提供一个类型安全的编程接口。 这允许开发人员使用
阅读全文