摘要: 接着上节的思路说,一个网页要想在浏览器中能够正确显示,需要在三个地方保持编码的一致:网页文件,网页编码声明和浏览器编码设置。 阅读全文
posted @ 2009-05-28 23:30 waemz 阅读(320) 评论(0) 推荐(0) 编辑
摘要: GB2312是对中国的开发人员来说很重要的一个词汇,它的来龙去脉并不需要我在这里赘述,随便Google之便明白无误。我只是想提一句,记得前一节说到编码字符集和字符集编码不是一回事,而有的字符集编码又实际上没有做任何事,GB2312正是这样一种东西! 阅读全文
posted @ 2009-05-28 22:58 waemz 阅读(275) 评论(0) 推荐(0) 编辑
摘要: 需要再一次强调的是,无论历史上的UCS还是现如今的Unicode,两者指的都是编码字符集,而不是字符集编码。花费一点时间来理解好这件事,然后你会发现对所有网页的,系统的,编码标准之间的来回转换等等繁杂事务都会思路清晰,手到擒来。 阅读全文
posted @ 2009-05-28 22:57 waemz 阅读(279) 评论(0) 推荐(0) 编辑
摘要: 上回说到对于文本分类这样的不适定问题(有一个以上解的问题称为不适定问题),需要有一个指标来衡量解决方案(即我们通过训练建立的分类模型)的好坏,而分类间隔是一个比较好的指标。 阅读全文
posted @ 2009-05-28 22:52 waemz 阅读(446) 评论(0) 推荐(0) 编辑
摘要: 线性分类器(一定意义上,也可以叫做感知机) 是最简单也很有效的分类器形式.在一个线性分类器中,可以看到SVM形成的思路,并接触很多SVM的核心概念. 阅读全文
posted @ 2009-05-28 22:51 waemz 阅读(505) 评论(0) 推荐(0) 编辑
摘要: 支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中[10]。 支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度,Accuracy)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷,以期获得最好的推广能力[14](或称泛化能力)。 以上是经常被有关SVM 的学术文献引用的介绍,有点八股,我来逐一分解并解释一下。 阅读全文
posted @ 2009-05-28 22:51 waemz 阅读(477) 评论(1) 推荐(0) 编辑