寻找数据之间的相似性是数据聚合、分类、拟合预测等应用中常见的场景;寻找数据之间的相异性是异常检测,排除离群点等数据操作必需的步骤。所以计算数据之间的相似度和相异度是数据处理的基本手段,常用的方法是计算数据之间的距离和密度。 相似度顾名思义就是两个对象相似程度的数值度量,常常在0(不相似)和1(完全相 Read More
posted @ 2015-08-08 21:17 软件心理学工程师 Views(1795) Comments(0) Diggs(0) Edit
前两天参加了公司组织的一个培训,主题是“如何写出好的代码” ,刚看到这个主题,第一反应是又不知道是哪个培训机构来忽悠钱的!老大安排了,就去听听呗。 说实在的,课程内容没有什么新鲜的东西,就是讲讲如何发现代码的坏味道,如何重构函数,如何修改遗留系统的代码。这些东西从本科到研究生到实习到正式工作,... Read More
posted @ 2015-07-21 23:25 软件心理学工程师 Views(1695) Comments(2) Diggs(0) Edit
数据预处理的目标是改善数据挖掘分析工作,减少时间,降低成本和提高质量。 数据预处理是选择分析所需要的数据对象和属性以及创建/改变属性的过程。方法主要包括:聚集,抽样,维归约,特征子集选择,特征创建,离散化和二元化,变量变换。 聚集(Aggregation):将两个或多个对象合并成单个对象。比如通过合 Read More
posted @ 2015-07-18 12:22 软件心理学工程师 Views(782) Comments(0) Diggs(0) Edit
数据集:数据对象的集合属性(attribute)是对象的性质或特性,它因对象而异,或随时间而变化。测量标度(measurement scale)是将数值或符号值与对象的属性相关联的规则(函数)属性的不同类型: 标称:标称属性的值仅仅只是不同的名字,即标称值只提供足够的信息以区分对象。比如:邮政编码... Read More
posted @ 2015-07-15 21:20 软件心理学工程师 Views(429) Comments(0) Diggs(0) Edit
最近在自学数据挖掘的知识,看的教材是《数据挖掘导论(完整版)》Pang-Ning Tan 著 。为了更好的归纳总结,开一系列DM的帖子,记录书中的重点和自己的心得。数据挖掘(Data Mining)是一种技术,将传统的数据分析方法与处理大量数据的复杂算法相结合,现阶段主要用来支持商务智能(Busin... Read More
posted @ 2015-07-14 22:13 软件心理学工程师 Views(358) Comments(0) Diggs(0) Edit
五一在家,VPN不能链接了,而项目在本地run的过程中,又需要链接公司的SSO server才能login。下雨,不想去公司,又不得不在家做task,只能想办法避开SSO login,以前知道django自带的有login模块,就打算用它暂时替换掉项目本身的login模块,这样就能绕过SSO验证,就... Read More
posted @ 2015-05-06 23:31 软件心理学工程师 Views(702) Comments(0) Diggs(0) Edit
前几天向几位新同事介绍项目,被问起了@login_required的实现,我说这是django框架提供的装饰器方法,验证用户是否登录,只要这样用就行了,因为自己不熟,并没有做过多解释。 今天查看django官网,忽然发现,装饰器用法并不是django框架提供的,而是python的一种语法,真心汗一个 Read More
posted @ 2015-04-26 16:26 软件心理学工程师 Views(211) Comments(0) Diggs(0) Edit
上周一个新的应用场景,带出来了关于django session管理的问题。公司的另一个App以Widget的形式嵌入我们的页面,就是我们提供一些url,另一个App通过iframe的形式嵌入这些url的respone页面到自己的页面中。QA发现,当两个App都session timeout后,重新s... Read More
posted @ 2015-04-19 12:07 软件心理学工程师 Views(683) Comments(0) Diggs(0) Edit
最近在维护项目的时候,发现某个实时数据同步功能非常容易失败,故静下心来彻底弄清楚该设计的实现原理,以及其中用到的python异步sockethandler : asyncore。实时数据同步功能的设计非常简单,用户在网页上触发某个记录的"Sync Up" button, 后台把该记录的id和type... Read More
posted @ 2015-04-06 17:41 软件心理学工程师 Views(419) Comments(0) Diggs(0) Edit
最近改进了项目中的站内搜索的功能,增加了全文索引,提升了搜索速度。因为项目框架是django,所以采用django+haystack+pyelasticsearch+elasticsearch的方式实现。django作为Web framework,采用MVC设计模式,非常易于开发数据库驱动的网站。h... Read More
posted @ 2015-04-06 12:02 软件心理学工程师 Views(540) Comments(0) Diggs(0) Edit