01 2020 档案
摘要:ik分词器动态加载数据到ik的系统词库(不采用配置文件配置自定义词库的方式)...
阅读全文
摘要:Solr动态加载分词器的自定义词库扩展词库解决方案
阅读全文
摘要:MLlib支持局部向量和矩阵存储在单台服务器,也支持存储于一个或者多个rdd的分布式矩阵 。局部向量和局部矩阵是用作公共接口的最简单的数据模型。 基本的线性代数运算由Breeze提供。在监督学习中使用的训练示例在MLlib中称为“标记点”。 因此,向量和 矩阵,标记点是 spark-mllib基本的
阅读全文
摘要:如果函数的参数在函数体内只出现一次,则可以使用下划线代替: val f1 = (_: Int) + (_: Int) //等价于 val f2 = (x: Int, y: Int) => x + y list.foreach(println(_)) //等价于 list.foreach(e => p
阅读全文
摘要:机器学习实战 Python3 实现
阅读全文
摘要:Scala 闭包 闭包是一个函数,返回值依赖于声明在函数外部的一个或多个变量。 闭包通常来讲可以简单的认为是可以访问一个函数里面局部变量的另外一个函数。 如下面这段匿名的函数: val multiplier = (i:Int) => i * 10 函数体内有一个变量 i,它作为函数的一个参数。如下面
阅读全文
摘要:最近在学习研究pyspark机器学习算法,执行代码出现以下异常: 19/06/29 10:08:26 ERROR Shell: Failed to locate the winutils binary in the hadoop binary pathjava.io.IOException: Cou
阅读全文
摘要:IntelliJ IDEA开发工具安装Scala插件使用
阅读全文
摘要:这个问题你为什么要选择这个模型,而不是另一个? 初学者常常很少考虑到这个问题,习惯于拿起模型就用,而忘了这个模型是否适合给定的问题和数据。 1、数据是怎样生成的?可以被看作是独立同分布吗?如果是,大多数方法都可以用,如果不是,需要考虑适用于非独立同分布的算法,比如隐马尔科夫模型。 2、有多少训练数据
阅读全文
摘要:L1范数 L1范数是指向量中各个元素绝对值之和 L2范数 L2范数、欧几里得范数一些概念。 首先,明确一点,常用到的几个概念,含义相同。 欧几里得范数(Euclidean norm) ==欧式长度 =L2 范数 ==L2距离 Euclidean norm == Euclidean length ==
阅读全文
摘要:argmax是一种函数,是对函数求参数(集合)的函数。 当我们有另一个函数y=f(x)时,若有结果x0= argmax(f(x)),则表示当函数f(x)取x=x0的时候,得到f(x)取值范围的最大值; 若有多个点使得f(x)取得相同的最大值,那么argmax(f(x))的结果就是一个点集。 换句话说
阅读全文
摘要:首先如果使用anaconda直接安装jupyter notebook的话,直接在windows的cmd中输入jupyter notebook是没有用的,参见下图: 原因可能是anaconda代理了所有它安装的软件,因此无法直接找到。此时应该在anaconda prompt中直接输入jupyter n
阅读全文
摘要:最新在部署solrCloud集群,由于自己机器上用的JDK都是JDK1.7的,然后我就从网上下载了最新下载了最先的solr6.6.0和最新的Tomcat9.0,部署了一下,开始报错,提示solr和JDK版本不兼容,Tomcat和JDK版本不兼容,所以在这里特意记录一下solr、JDK、Tomcat版
阅读全文
摘要:Solr各版本下载地址:http://archive.apache.org/dist/lucene/solr/ 下载的包里面的CHANGES.txt 有当前版本需要的说明。
阅读全文