摘要:
本章概要本章介绍了优化问题的基本概念,以及常见的优化算法(随机搜索,爬山,模拟退火,遗传算法)。读完本章后,感觉茅塞顿开,之前一直认为遗传算法高深莫测,原来这些算法都是根据生物,物理的启发而来的,顿时亲切了许多。什么是优化(Optimization)一个问题的解有一系列组合,在这些组合中找出最优的解的过程就是优化。最笨的方法,枚举出所有可能的结果,找出最优的解。但是,往往可能性太多,计算机根本上无法枚举出所有的解决方案。成本函数(Cost Function)最优的解决方案在成本函数中得到最大或最小值。成本函数是指导优化继续进行的根本。优化算法随机搜索:计算一组随机的组合方案,在这个方案中找到最 阅读全文
摘要:
本章概要本章介绍了搜索引擎的基本原理,PageRank的基本思想和神经网络在学习用户点击行为,用于提高搜索结果的准确性方面的问题搜索引擎基本原理搜索引擎的基本框架:爬取网页—>制作索引—>检索查询。虽然只有这三步,熟练的工程师基本上一天就可以搭建一个小型的搜索引擎。但是每一步中可以深入研究的地方太多,涉及到的技术难点太多。本书概要的介绍了上面三个步骤,并用python实现了一个小巧的搜索引擎,关键点是要介绍如何对检索出来的内容进行排序。内容排序主要介绍了三种方式为搜索结果排序基于页面内容排序:按照检索词的频率,检索词之间的位置,检索词在文本中的距离的标准排序。基于页面之间的关系排序 阅读全文
摘要:
本文概要本章主要描述了非负矩阵因式分解(Non-Negative Matrix Factorize)在数据挖掘中的作用。举了两个例子:1)文章主题分析(一些关键的词组);2)股票交易量分析(交易量与重大事件的关系)贝叶斯分类的局限贝叶斯分类时,需要训练数据集,这些数据集是人为划分的,并且不会出现新的分类。如果待处理的数据集的潜在分类很多,而且每一个分类需要一定量的样本才会准确,那么训练的工作量会非常大。所以,贝叶斯分类器适合分类比较少,每个分类样本较多的场景。层级聚类局限在于不太准确,可能导致一些不同类的样本却在一个聚类中。比如2个相关性并不大的文章A,B,但是由于必须要找出距离最近的文章组成 阅读全文
摘要:
下面的图片中列举了128个ASCII编码,包括8进制,10进制和16进制。 不多说,直接上图!想了解更多计算机字符编码的知识,可以参考文章《网页中文乱码的那点事儿》 阅读全文
摘要:
不解释,直接上图!记录于此,作为备忘。 阅读全文
摘要:
本章概要本章介绍了线性分类器和支持向量机(Supprt Vector Machine, short for SVM)。同时,还介绍了一些数据预处理的相关实践。SVM的原理比较高深,本章没有详细的说明,只是介绍了如何采用python中的LIBSVM库,进行SVM的训练和预测。线性分类器虽然简单,但是与SVM还是有一定联系,所以本章最开始介绍了线性分类器。决策树的不足本章给出的例子是交友网站上的配对预测,经过数据预处理后,主要是一些数值数据。使用决策树分类,会发现节点基本上是在同一类数据上不同值之间来回变化,比如年龄(如下图)。所以,决策数并不适合数值关系负责,没有明确分割点的数据分类。数据伸缩对 阅读全文
摘要:
首先,向万恶的IE 6,7,8,9,10,XXX致敬!下面调试CSS样式时的一些总结,主要是为了兼容IE,有少量chrome.IE <option>没有onclick事件,可以通过select的onclick事件响应IE <label> for <image>时,存在bug,需要通过脚本设定IE <image>默认会有边框,可以通过样式 {border:0}来去除IE的float:right的标签必须在逻辑位置的上边才上边缘对齐jquery的组件选择,使用children,parent,silbings,会存在维护问题,因为修改CSS时,有可能修 阅读全文
摘要:
本文概要贝叶斯分类器 ,决策数和支持向量机对数值型数据处理能力较弱。本文介绍kNN(K Nearst Neighbor)算法,可以根据已有的数值型训练集合,对数值型数据做出预测。KNN算法正对当前被预测对象,在训练集合中找出最近的K个物品价格,算出平均值为预测价格。距离算法有很多,如皮尔森系数,余弦定理,欧氏距离等。本章例子是预测商品价格,采用的是欧氏距离(为什么呢?我的理解:商品的价格一般与商品重量,体积等成正比,所以距离的模大小比较重要,采用欧拉距离,可以将向量摸大小的因素考虑在内)。K的选取算法中有K的,都会遇到这个问题,k取多少?在KNN中,k太小,比如1,那么预测价格仅仅与最临近的训 阅读全文
摘要:
本章概要决策树与贝叶斯分类,费舍尔分类,神经网络一样,是一种分类技术。但是,与其他分类技术不同的是,决策树做出决策的过程很清晰,可以帮助用户了解决策过程,从而调整自己的策略(比如广告投放),往往决策树本身处理过程比其分类结果更重要。本章主要介绍了CART算法构建决策树与做出决策,同时还介绍了一些决策树的优化方案,容错机制和使用场景。本章还介绍了三种集合纯度计算方法基尼不纯度(Gini Impurity)熵(Entory)方差(Variance)决策树上面就是一个决策树,分叶节点是逻辑判断,叶节点是结果。输入结果按照决策树的节点一级一级的向下走,直到访问到叶节点,得到最后的分类结果。可以理解为一 阅读全文
摘要:
本章概要本章主要介绍了两种分类技术:朴素贝叶斯分类(Naive Bayesian Classification)费舍尔分类器(Fisher Classification)上面两种技术的共性都是基于条件概率计算不同分类的概率,然后通过设定一些阀值,找到最适合的分类。分类过程中,都使用了权重概率,用户避免极概率的发生。当然,上述两种分类器不仅仅局对邮件分类,还可以对其他实物,如文章,图像,商品等分类,关键是如何抽取特性。特性特性是根据不同实物而变化的。比如一般的文本,如新闻。可以将词语出现与否作为特性。比如邮件,可以将发送邮件的IP,发送者,发送时间,大写出现频率等均作为特性。训练人工将一系列特性 阅读全文