2017年7月10日

生产者消费者模式实现数据下载存储流程

摘要: 最近在做的一个项目,涉及到数据的下载 解析和存储操作.最初的实现方案是针对下载的原始数据一条条进行处理,即下载,解析和存储操作按顺序流程执行, 这种方案显然难以提高效率.故后来重新实现了下载和解析存储流程并行执行的方案 1. 数据输出接口,数据存储到数据库或其他存储的抽象 2. 参数类 3. Dow 阅读全文

posted @ 2017-07-10 09:49 taich-flute 阅读(424) 评论(0) 推荐(0) 编辑

2017年6月12日

决策树

摘要: 1. 机器学习中分类和预测算法的评估 准确性 速度 强壮性:当数据总有噪音或缺失时…… 可规模性:数据呈指数增长时,同样的算法是否存在问题。 可解释性 2. 决策数/判定树(decision tree) 决策树算法是机器学习分类算法中一个重要的算法 决策树是一个类似于流程图的树结构,其中每个内部结点 阅读全文

posted @ 2017-06-12 09:39 taich-flute 阅读(1422) 评论(0) 推荐(0) 编辑

2017年5月15日

KNN分类算法

摘要: kNN 算法是一种基于向量间相似度的分类算法。 1. 算法原理 k 最近邻(k-Nearest Neighbor)算法是比较简单的机器学习算法。它采用测量不同特征值之间的距离方法进行分类。它的思想很简单:如果一个样本在特征空 间中的 k 个最邻近(最相似)的样本中的大多数都属于某一个类别,则该样本也 阅读全文

posted @ 2017-05-15 09:15 taich-flute 阅读(1423) 评论(0) 推荐(0) 编辑

2017年5月5日

贝叶斯算法的基本原理和算法实现

摘要: 一. 贝叶斯公式推导 朴素贝叶斯分类是一种十分简单的分类算法,叫它朴素是因为其思想基础的简单性:就文本分类而言,它认为词袋中的两两词之间的关系是相互独立的,即一个对象 的特征向量中每个维度都是相互独立的。例如,黄色是苹果和梨共有的属性,但苹果 和梨是相互独立的。这是朴素贝叶斯理论的思想基础。现在我们 阅读全文

posted @ 2017-05-05 17:27 taich-flute 阅读(19347) 评论(2) 推荐(0) 编辑

2017年5月2日

中文文本分类(续)

摘要: 二. 中文文本分类技术和流程 1. 预处理:去除文本的噪声信息,例如 HTML 标签,文本格式转换,检测句 子边界等等; 2. 中文分词:使用中文分词器为文本分词,并去除停用词; 3. 构建词向量空间:统计文本词频,生成文本的词向量空间; 4. 权重策略--TF-IDF 方法:使用 TF-IDF 发 阅读全文

posted @ 2017-05-02 09:38 taich-flute 阅读(1035) 评论(0) 推荐(0) 编辑

2017年4月24日

中文文本分类

摘要: 本文介绍文本挖掘与文本分类的一些基本概念和流程,为后续学习分类算法做好铺垫。 一. 文本挖掘的概念 文本挖掘(Text Mining)是从非结构化文本信息中获取用户感兴趣或者有用的模式 的过程。其中被普遍认可的文本挖掘定义如下:文本挖掘是指从大量文本数据中抽取事先未知的、可理解的、最终可用的知识的过 阅读全文

posted @ 2017-04-24 07:52 taich-flute 阅读(6992) 评论(1) 推荐(0) 编辑

2017年4月10日

Machine & Deep Learning 概述

摘要: 本节开始进入机器学习和深度学习的基础理论系统学习阶段,博客内容为在学习过程中整理的笔记。 1. 机器学习 概念:多领域交叉学科,涉及概率论,统计学、逼近论,凸分析,算法及复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性 阅读全文

posted @ 2017-04-10 09:42 taich-flute 阅读(351) 评论(0) 推荐(0) 编辑

2017年3月22日

tensorflow中的矩阵生成与变换函数

摘要: tensorflow中常用的矩阵生成与变换函数如下: 1. 矩阵生成 tf.ones | tf.zeros 用法:tf.ones(shape,type=tf.float32,name=None) tf.zeros(shape,type=tf.int32,name=None) 说明:生成全0/全1矩阵 阅读全文

posted @ 2017-03-22 15:19 taich-flute 阅读(12490) 评论(0) 推荐(0) 编辑

2017年3月20日

scala函数的流水线组合

摘要: 回顾前面的场景,如果还还需要更新Song的一些信息,可以通过addThen或者 Function 伴生对象上的 chain 方法来实现流水线组合功能: 输出结果: id:1 name:今天 singers:List(刘德华) hot:101id:2 name:笨小孩 singers:List(刘德华 阅读全文

posted @ 2017-03-20 09:37 taich-flute 阅读(365) 评论(0) 推荐(0) 编辑

2017年3月12日

scala中的函数组合-谓词组合

摘要: 继续上一篇关于函数组合的介绍: 谓词组合 还以歌曲过滤器为例说明,前面的歌曲过滤器只能传递一个过滤条件,如果筛选出满足多个条件的歌曲,可以用到“谓词组合”。 输出结果: Song(3,七里香,List(周杰伦),501) 阅读全文

posted @ 2017-03-12 19:54 taich-flute 阅读(436) 评论(0) 推荐(0) 编辑

导航