懵懂的菜鸟

Stay hungry,Stay foolish.

导航

2017年9月30日 #

同时安装2个版本的python

摘要: 使用pip 当Python2和Python3同时存在于windows上时,它们对应的pip都叫pip.exe,所以不能够直接使用 pip install 命令来安装软件包。而是要使用启动器py.exe来指定pip的版本。命令如下: python2 -m pip install XXXX 比如pyth 阅读全文

posted @ 2017-09-30 21:01 懵懂的菜鸟 阅读(1789) 评论(0) 推荐(0) 编辑

时间序列和序列模式挖掘

摘要: 阅读全文

posted @ 2017-09-30 12:42 懵懂的菜鸟 阅读(737) 评论(1) 推荐(0) 编辑

LDA详解

摘要: PART 1 这个性质被叫做共轭性。共轭先验使得后验概率分布的函数形式与先验概率相同,因此使得贝叶斯分析得到了极⼤的简化。 V:文档集中不重复的词汇的数目 语料库共有m篇文档,; 对于文档,由个词汇组成,可重复; 是第m个文档中的第n个词。 :文档集中文档的总数 :第m个文档中包含的词汇总数 :文档m中第n个词在词典中的序号,属于1到V :文档m第n个词汇的主题标号,属于1到k ... 阅读全文

posted @ 2017-09-30 12:37 懵懂的菜鸟 阅读(979) 评论(0) 推荐(0) 编辑

Web数据挖掘综述

摘要: 阅读全文

posted @ 2017-09-30 12:34 懵懂的菜鸟 阅读(177) 评论(0) 推荐(0) 编辑

CF

摘要: CF 1 概述 协同过滤(Collaborative Filtering,CF)是推荐系统中最为流行和成熟的一种技术。协同过滤通常分为基于用户和基于项目的协同过滤的两种情况,通过考虑用户与用户之间、物品与物品之间的相似度,来对目标用户进行合适的推荐。在各大电商网站中得到广泛的青睐。例如亚马逊、淘宝、京东等。 在推荐系统中最常用的协同过滤包括: 基于用户的协同过滤 基于物品的协同过... 阅读全文

posted @ 2017-09-30 11:28 懵懂的菜鸟 阅读(135) 评论(0) 推荐(0) 编辑

LDA

摘要: LDA 1 概述 LDA(Latent Dirichlet allocation)潜在狄立克雷分配模型,它是将文档集中每篇文档的主题按照概率分布的形式给出,是一种典型的概率生成性模型,能够发现语料库中潜在的主题信息,因此也称为LDA主题模型。它是一种无监督学习,可以应用于推荐系统之中,其优点在于无需手工标注训练集,仅仅需要的是文档集和指定主题的数量。其中,对于每个主题只需找出一些词语代替即可。 L... 阅读全文

posted @ 2017-09-30 11:27 懵懂的菜鸟 阅读(449) 评论(0) 推荐(0) 编辑

PageRank

摘要: PageRank 1 概述 PageRank算法在1998年4月举行的第七届国际万维网大会上由Sergey Brin和Larry Page提出。PageRank是通过计算页面链接的数量和质量来确定网站重要性的粗略估计。算法创立之初的目的是应用在Google的搜索引擎中,对网站进行排名。 随着国内外学者的深入研究,PageRank算法被广泛应用于其他方面,例如学术论文的重要性排名,学术论文的作者的重... 阅读全文

posted @ 2017-09-30 11:26 懵懂的菜鸟 阅读(6619) 评论(0) 推荐(0) 编辑

HITS

摘要: HITS 1 概述 HITS(hypertext induced topic search)超链接归纳主题搜索是由kleinbers在90年代提出的基于链接分析的网页排名算法。Hits算法是利用HubAuthority的搜索方法,即中心权威的思想。 Hits算法的基本思想: 好的中心网页拥有很多的链出链接,这些链接都指向权威网页。 好的权威网页拥有很多的链入链接,这些链接都来自中心网页。 即:一个... 阅读全文

posted @ 2017-09-30 11:26 懵懂的菜鸟 阅读(525) 评论(0) 推荐(0) 编辑

Web挖掘

摘要: Web挖掘 Web挖掘的目标是从Web的超链接、网页内容和使用日志中探寻有用的信息。依据Web挖掘任务,可以划分为三种主要类型:Web结构挖掘、Web内容挖掘和Web使用挖掘。Web结构挖掘简单的说就是从表征Web结构的超链接中找寻有用的知识。例如:从这些链接中可以找到重要的网页,也可以发掘具有共同兴趣的用户社区。Web内容挖掘从网页中抽取有用的信息知识库。例如:根据网页的主题,可以自动进行聚类和... 阅读全文

posted @ 2017-09-30 11:25 懵懂的菜鸟 阅读(3402) 评论(0) 推荐(0) 编辑

支持向量机

摘要: 支持向量机 1 概念 支持向量机是一种分类方法,通过寻求结构化、风险最小,来提高学习机泛化能力,实现经验风险和置信范围的最小化,从而达到在统计样本量较小的情况下,亦能获得良好统计规律的目的。通俗来讲,他是一种二类分类模型,基本模型定义为特征空间上的间隔最大的线性分类器,即支持向量机的学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解。 SVM可以很好的应用于高维数据,避免维灾难问题。这种... 阅读全文

posted @ 2017-09-30 11:24 懵懂的菜鸟 阅读(947) 评论(0) 推荐(0) 编辑

无监督学习

摘要: 无监督学习 监督学习通过发现数据的其他属性和类别属性之间的关联模式并通过对这些模型来预测未知数据实例的类别属性。这些属性通常表示一些现实世界中的预测或分类问题,例如通过判断新闻是属于体育类还是属于政治类,而在其他的应用中,数据的类别属性却是缺失的。用户希望通过浏览数据来发现其中的某些内在结构。例如聚类是一种发现这种内在结构的技术。聚类把全体数据实例组织成一些相似组,这些相似组被称为聚类。处于相同聚... 阅读全文

posted @ 2017-09-30 11:24 懵懂的菜鸟 阅读(178) 评论(0) 推荐(0) 编辑

朴素贝叶斯分类

摘要: 朴素贝叶斯分类 1 朴素贝叶斯分类 监督学习可以从概率的角度来认识,分类的任务可以看做是给定一个测试样例后,估计目标出现的条件概率,即后验概率。 首先给出条件概率公式,即: 然后给出,贝叶斯定理: 朴素贝叶斯分类是一种十分简单的分类算法,叫它朴素贝叶斯分类是因为这种方法的思想真的很朴素,朴素贝叶斯的思想基础是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就... 阅读全文

posted @ 2017-09-30 11:23 懵懂的菜鸟 阅读(1386) 评论(0) 推荐(0) 编辑

监督学习

摘要: 监督学习 1 监督学习 在机器学习中,监督学习又被成为分类(Classfication)或者归纳学习(Inductive Learning),这种类型的学习类似于人类学习的方式,从过去的经验中获取知识以用于提高解决现实问题的能力。监督学习在Web数据挖掘领域的一个成熟的应用是学习一个目标函数从而用于预测实例的类属性值。 给定一个数据集D,机器学习任务的目标就是产生一个联系属性值集合A和类标集合C的... 阅读全文

posted @ 2017-09-30 11:22 懵懂的菜鸟 阅读(665) 评论(0) 推荐(0) 编辑

规则归纳

摘要: 规则归纳 1 顺序化覆盖 大多数的规则推理系统都是使用一种叫做顺序化覆盖的算法。使用此算法的分类器维持着一组规则,叫做决策列表。 规则化覆盖的基本思想是顺序化的学习一系列的规则去覆盖训练数据。当一条规则产生以后,我们把这条规则所覆盖的所有的训练样例移除掉,然后使用剩下的训练样例继续寻找下一条规则。一条规则覆盖一个样例是指这个样例满足这条规则所描述的所有条件。 算法1 有序化的规则(Ordered ... 阅读全文

posted @ 2017-09-30 11:22 懵懂的菜鸟 阅读(1020) 评论(0) 推荐(0) 编辑

序列模式

摘要: 序列模式 1 序列模式 在Web数据挖掘中,从用户浏览网页的顺序中挖掘网站的浏览模式是很有用的;在文本挖掘中,根据词在句子中的顺序挖掘语言模式也是非常重要的。对于这些应用,序列模式挖掘发挥着重要的作用。序列模式挖掘即从序列数据库中发现频繁子序列以作为模式,它是一类重要的数据挖掘问题,有着非常广泛的应用前景,被应用在包括顾客购买行为的分析、网络访问模式分析、科学实验的分析、疾病治疗的早期诊断、自然灾... 阅读全文

posted @ 2017-09-30 11:21 懵懂的菜鸟 阅读(1105) 评论(0) 推荐(0) 编辑

关联规则

摘要: 关联规则 1 关联规则 关联规则挖掘的目的是在数据项目中找出所有的并发关系,除了基本Aprioris算法,还有一些常用的改进算法,例如多最小支持度的关联规则挖掘,分类关联规则挖掘。 Aprioris算法基于演绎原理(或称为向下封闭属性)来高效地产生所有频繁项目集。算法基于逐级搜索的思想,它采用多轮搜索的方法,每一轮搜索扫描一遍整个数据集,并最终生成所有的频繁项目集合。 多最小支持度算法简称为"MS... 阅读全文

posted @ 2017-09-30 11:20 懵懂的菜鸟 阅读(9876) 评论(0) 推荐(0) 编辑

从《数据挖掘概念与技术》到《Web数据挖掘》

摘要: 从《数据挖掘概念与技术》到《Web数据挖掘》 认真读过《数据挖掘概念与技术》的第一章后,对数据挖掘有了更加深刻的了解。数据挖掘是知识发展过程的一个步骤。知识发展的过程可以分为:数据清洗(去噪和去除不一致数据)、数据集成(多个数据源组合在一起)、数据选择(从数据库中提取和分析与任务相关的数据)、数据变换(汇总、聚集,变成统一形式)、数据挖掘(智能方法提取数据模式)、模式评估(根据兴趣度度量、识别代表... 阅读全文

posted @ 2017-09-30 11:19 懵懂的菜鸟 阅读(399) 评论(0) 推荐(0) 编辑

数据挖掘在大数据中的应用综述

摘要: 数据挖掘在大数据中的应用综述 *** (上海海事大学 上海 201306) 摘 要: 面对大规模多源异构的数据,数据挖掘的方法不断的得到改善与发展,同时对于数据挖掘体系的完善也提出了新的挑战。针对当前数据挖掘在大数据方面的应用,本文从数据挖掘的各个阶段进行了方法论的总结及应用,主要包括数据准备的方法 阅读全文

posted @ 2017-09-30 11:15 懵懂的菜鸟 阅读(4001) 评论(0) 推荐(0) 编辑