摘要: ik分词插件下载 https://github.com/medcl/elasticsearch-analysis-ik/releases 下载对应elasticsearch版本的ik分词 如: elasticsearch2.4对应ik版本:v1.10.4 下载好后解压到elastisearch安装目 阅读全文
posted @ 2016-10-08 20:34 xmeo 阅读(148) 评论(0) 推荐(0) 编辑
摘要: 用java做数据挖掘的时候,保存一个模型文件用java序列化成一个对象文件,在用maven打包的时候遇到些问题. 一是做个记录,二是可以帮助大家少走些弯路. 一.找不到文件 maven打包路径问题,首先遇到的问题就是,打包后找不到模型文件,模型文件保存在maven工程里的resources 目录中, 阅读全文
posted @ 2016-09-18 13:48 xmeo 阅读(2107) 评论(0) 推荐(0) 编辑
摘要: 1.创建索引 2.创建mapping 阅读全文
posted @ 2016-09-08 11:36 xmeo 阅读(1520) 评论(0) 推荐(0) 编辑
摘要: NNLM(Neural Network Language Model) 神经网络语言模型对理解word2vec模型有很大的帮助, 包括对后期理解CNN,LSTM进行文本分析时有很大的帮助. 模型训练数据 是一组词序列w1…wT,wt∈V。其中 V 是所有单词的集合(即训练预料中的词构成的词典), 词 阅读全文
posted @ 2016-09-01 16:44 xmeo 阅读(4056) 评论(0) 推荐(0) 编辑
摘要: Theano编写分类神经网络 1.导入模块并创建数据 2.建立模型 3.激活模型 4.训练模型 阅读全文
posted @ 2016-08-26 18:30 xmeo 阅读(240) 评论(0) 推荐(0) 编辑
摘要: Theano中的共享变量 定义共享变量的原因在于GPU的使用,如果不定义共享的话,那么当GPU调用这些变量时,遇到一次就要调用一次,这样就会花费大量时间在数据存取上,导致使用GPU代码运行很慢,共享变量的类型必须为floatX 因为GPU要求在floatX上操作,所以所有的共享变量都要声明为floa 阅读全文
posted @ 2016-08-16 17:00 xmeo 阅读(518) 评论(0) 推荐(0) 编辑
摘要: 分词与词向量 今天/天气/不错/!(结巴分词) 1.启发式:Heuristic 2.机器学习/统计方法:HMM, CRF 基本假设:“相似”词的邻居词分布类似 倒推:两个词邻居词分布类似 → 两个词语义相近 猫 宠物 主人 喂食 蹭 喵 狗 宠物 主人 喂食 咬 汪 v(“猫”)≈v(“狗”) v( 阅读全文
posted @ 2016-08-16 16:23 xmeo 阅读(234) 评论(0) 推荐(0) 编辑
摘要: Theano中的Function function是theano框架中极其重要的一个函数,另外一个很重要的函数是scan,在学习theano框架中deep learning的教程的时候,几乎所有的实例程序都用到了function和scan, theano function 就和 python 中的 阅读全文
posted @ 2016-07-28 11:55 xmeo 阅读(780) 评论(0) 推荐(0) 编辑
摘要: Theano基础 theano与numpy中都有broadcasting:numpy中是动态的,而theano需要在这之前就知道是哪维需要被广播(broadcast)。针对不同类型的数据给出如下的一张表,基本类型包括scalar、vector、row、col、matrix、tensor3、tenso 阅读全文
posted @ 2016-07-26 11:54 xmeo 阅读(214) 评论(0) 推荐(0) 编辑
摘要: 推荐系统架构 推荐系统常用lambda架构为三层,分别是:批处理层(batch layer), 服务层(serving layer), 实时处理层(speed layer): 1.批处理层:收集各维度的数据,生成画像,批量处理数据,生成离线推荐结果. 2.服务层:结合离线推荐结果、在线计算结果,推送 阅读全文
posted @ 2016-07-25 10:10 xmeo 阅读(291) 评论(0) 推荐(0) 编辑