06 2013 档案
Perl,Python,Ruby,Javascript 四种脚本语言比较
摘要:Perl为了选择一个合适的脚本语言学习,今天查了不少有关Perl,Python,Ruby,Javascript的东西,可是发现各大阵营的人都在吹捧自己喜欢的语言,不过最没有争议的应该是Javascript现阶段还不适合用来做独立开发,它的天下还是在web应用上。?我?主要是想做数据挖掘算法的研究,应该会处理大量的文本。提到文本处理,相信大部分人都会说应该用Perl。的确,Perl的文本处理很强大,但是它的语法?给人的感觉太乱了,我之前把Perl的基本语法学完了,也用它做了一些简单的文本处理工作,但是到现在,用起来还是不那么顺手。貌似在Unix或?Linux上做系统管理Perl是最好的选择。?P
阅读全文
数据挖掘十大经典算法(5) 最大期望(EM)算法
摘要:在统计计算中,最大期望(EM,Expectation–Maximization)算法是在概率(probabilistic)模型中寻找参数最大似然估计的算法,其中概率模型依赖于无法观测的隐藏变量(Latent Variabl)。最大期望经常用在机器学习和计算机视觉的数据集聚(Data Clustering)领域。最大期望算法经过两个步骤交替进行计算,第一步是计算期望(E),也就是将隐藏变量象能够观测到的一样包含在内从而计算最大似然的期望值;另外一步是最大化(M),也就是最大化在 E 步上找到的最大似然的期望值从而计算参数的最大似然估计。M 步上找到的参数然后用于另外一个 E 步计算,这个过程不.
阅读全文
机器学习10大经典算法.doc
摘要:详见 F:\工程硕士\d电子书\26 数据挖掘小结:1. C4.5C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法. C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进:1) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足; 2) 在树构造过程中进行剪枝; 3) 能够完成对连续属性的离散化处理; 4) 能够对不完整数据进行处理。C4.5算法有如下优点:产生的分类规则易于理解,准确率较高。其缺点是:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。2. The k-means algorithm
阅读全文
Python自然语言处理学习笔记(69)
摘要:http://www.cnblogs.com/yuxc/archive/2012/02/09/2344474.htmlChapter8Analyzing Sentence Structure分析句子结构Earlier chapters focused on words: how to identify them, analyze their structure, assign them to lexical categories, and access their meanings. We have also seen how to identify patterns in word sequ
阅读全文
c# xml 序列化
摘要:ref http://blog.csdn.net/diligentcat/article/details/6854468 类属性中的list参数序列化方法 http://hi.baidu.com/jackeyrain/item/79ad923564fa94f1e6bb7a11 文件操作方法弄了半天,查了很多资料,原来是类中没有含有参数为空的构造函数造成。如果要根据xmlserializer来把对象序列化成XML,必须至少有一个参数为空的构造函数,否则就会报该类型错误。2、http://blog.csdn.net/diligentcat/article/details/6854468中对list
阅读全文
C#初始化字符串数组的三种方式
摘要:http://blog.csdn.net/mywebstudy/article/details/6622996本人在程序中遇到了麻烦,在数据赋值的时候,总是提示未将对象引用到对象实例,后来想想应该是字符串数组初始化出来问题,果真还是,找到下面的这个朋友分享的方法,在此分享给大家。对于一维数组:using System;using System.Data;using System.Configuration;using System.Web;using System.Web.Security;using System.Web.UI;using System.Web.UI.WebControls;
阅读全文
使用Dreamweaver格式化HTML代码
摘要:http://www.ludou.org/use-dreamweaver-to-fomat-html-code.html今天偶然发现了Dreamweaver的一个非常有用的功能,就是代码的格式化功能。一般情况下,我们写的html或者css代码都计较混乱,难以阅读,即使刚开始很在意代码的可读性,但是等到所使用的标签越来越多,嵌套越来越深,这时我们已经很难去掌控html代码的格式问题了。废话不多说,先看看没有格式化的代码和格式化后的代码的区别:这样的代码是不是很让人抓狂呢?格式化后的代码,使用适当的缩进和换行,可读性就好多了!那如何使用Dreamweaver格式化代码呢?第一步:依次点击菜单栏的&
阅读全文
从C#到Python —— 谈谈我学习Python一周来的体会
摘要:http://kb.cnblogs.com/kb/57281/从大年初二开始学习Python,到现在正好一个星期了,谈谈我的学习体会。 一、学习缘起 最早听说Python是在今年1月底到北京一个厂商(做汽车驾驶模拟器的)那里看设备,听他们的CTO介绍模拟软件的脚本控制是用的Python,(当时我还把Python叫做“飞森”,而不是“派森” 囧)。第一次听说了这个语言,但也没太在意,因为导师一直跟我说用好一门语言就够了。从上大学到现在,先后用过C、Basic、C++以及ASP(一看就不是计算机专业的,我大学认识的几个计算机专业的同学,大多都是Pascal - Delphi - Java这条路..
阅读全文
高人对libsvm的经典总结(全面至极)
摘要:http://blog.163.com/crazyzcs@126/blog/static/129742050201061192243911/http://www.ilovematlab.cn/viewthread.php?tid=74019&sid=vYpSs5SVM相关资源汇总[matlab-libsvm-class-regress](by faruto)SVM相关资源汇总[matlab-libsvm-class-regress](by faruto) ----关于SVM的那点破事by faruto 可以了,终于可以完结了!这帖子我编辑过n次,不断的往里...
阅读全文
数学系之必备参考书+数学系教材推荐
摘要:http://hi.baidu.com/dzhifeng/item/3ea82ca8ca7cb4f415329ba9数学系之必备参考书数学分析:《吉米多维奇习题集题解》 这个没什么好说的,想学好数分不做题是不可能的!《数学分析中的典型问题与方法》裴礼文编 这里面的解题方法很有思想和技巧。《数学分析原理》Rudin著 经典!有深度,系统性强,对初学者也许会有一些困难。主要针对想以数学为事业的同学而非考试想考高分的同学。高等代数:《高等代数》北大编高教版经典权威教材。一些学校往往用自己的教材而不用这本,所以这本书是必备的参考教材。《高等代数习题集》华中师大钱吉林编 众多习题里这本最好——我们过来人
阅读全文
WEKA完整中文教程
摘要:http://wenku.baidu.com/view/449180c189eb172ded63b7c7.htmlWeka是常用的开源数据挖掘工具。本教程从weka的基本操作方式到二次开放要点,详细阐述了该工具的使用,是同类教程中最详细完整的版本。
阅读全文
SVM(四) 支撑向量机,二次规划问题
摘要:http://www.cnblogs.com/liqizhou/archive/2012/05/11/2496029.htmlSMO优化算法(Sequential minimal optimization)SMO算法由Microsoft Research的John C. Platt在1998年提出,并成为最快的二次规划优化算法,特别针对线性SVM和数据稀疏时性能更优。关于SMO最好的资料就是他本人写的《Sequential Minimal Optimization A Fast Algorithm for Training Support Vector Machines》了。我拜读了一下,下面
阅读全文
SVM(三),支持向量机,线性不可分和核函数
摘要:http://www.cnblogs.com/liqizhou/archive/2012/05/11/2495788.html3.1 线性不可以分我们之前讨论的情况都是建立在样例线性可分的假设上,当样例线性不可分时,我们可以尝试使用核函数来将特征映射到高维,这样很可能就可分了。然而,映射后我们也不能100%保证可分。那怎么办呢,我们需要将模型进行调整,以保证在不可分的情况下,也能够尽可能地找出分隔超平面。看下面两张图:可以看到一个离群点(可能是噪声)可以造成超平面的移动,间隔缩小,可见以前的模型对噪声非常敏感。再有甚者,如果离群点在另外一个类中,那么这时候就是线性不可分了。这时候我们应该允许一
阅读全文
SVM(二)拉格朗日对偶问题
摘要:http://www.cnblogs.com/liqizhou/archive/2012/05/11/2495689.html2 拉格朗日对偶(Lagrange duality)2.1 先抛开上面的二次规划问题,先来看看存在等式约束的极值问题求法,比如下面的最优化问题:(公式2-1) 目标函数是f(w),下面是等式约束。通常解法是引入拉格朗日算子,这里使用来表示算子,得到拉格朗日公式为 (公式2-2) L是等式约束的个数。 然后分别对w和求偏导,使得偏导数等于0,然后解出w和。至于为什么引入拉格朗日算子可以求出极值,原因是f(w)的dw变化方向受其他不等式的约束,dw的变化方向与f(w)的梯度
阅读全文
SVM(一) 问题的提出
摘要:http://www.cnblogs.com/liqizhou/archive/2012/05/11/2495537.htmlSVM是支持向量机从诞生至今才10多年,发展史虽短,但其理论研究和算法实现方面却都取得了突破性进展,有力地推动机器学习理论和技术的发展。这一切与支持向量机具有较完备的统计学习理论基础的发展背景是密不可分的。我看了一下网上的帖子和有关的资料,目前关于SVM大约有3到4个版本,但在网上到处都是转载的内容,最后谁叶不知原稿人是谁。svm主要分有4个问题 1.问题的提出 2.拉格朗日对偶问题。 3.核函数问题。 4.二次规划问题。1.问题的提出支持向量机基本上是...
阅读全文