摘要:昨天完成了第二次面试,是数据挖掘工作的一个面试吧,新闻推荐算法岗位,安全大楼还真不好找。 面试题一道二叉树层序遍历的反转,然后就是实际文档如何提取成特征,手写kmeans(汗,都是手写这个,我还每次都是根据算法思路重写。。),最后是实际的推荐引擎构建,从备选算法结合实际(硬件,需求...
阅读全文
摘要:1.努力分早晚,越早越好。 起跑不同,再追要付出更多的努力和辛苦,落后了,你努力,别人可能更努力的。虽然多读个硕士,但是本科同学薪资可能已经是你的1.5~2倍了。2.Sooner is better than never 不要和太遥远的目标做比较,作为激励目标就可以了,而且效果会更...
阅读全文
摘要:1.注意对输入参数的正确性判断 2. int middle = left + ((right - left) >> 1),有效防止越界public class BinarySearch { public int binary_search(int array[],int le...
阅读全文
摘要:问题一:最大子组和问题 子组中的元素可能是正负或0,思路: 最大子组和就是所有可能的子组和中最大的,那么可能比较大的首先有一个初始值(0),然后如果有比初始值大的子组和,就用来替代当前的最大子组和,直到遍历结束再也没有比当前子组和更大的。 当子组和为负的时候,肯定不是我们期望的最大...
阅读全文
摘要:首先是一些java,jvm内存的分布情况,然后是具体每块区域的内存回收机制。 java不同于c++等语言由计算机直接编译文件,java编译class文件后生成bytecode文件,然后由不同平台的jvm进行bytecode的编译,所以java可以实现跨平台。 jvm类似于一个虚拟...
阅读全文
摘要:学习资料一,做的比较炫酷的文档,看着很舒服 http://zh.scala-tour.com/#/funtional-contents 下面是一个为java程序员编写的scala入门教程,内容不多但是可以用来快速了解scala吧 原帖地址:http://dataunion.org/...
阅读全文
摘要:收藏一下,请直接点击原帖地址:http://blog.csdn.net/hpf911/article/details/9275583 这是《剑指Offer》中的一道题目,数组中的元素可能是正负,所以连续的子组求和,会变大也可能变小,解题时首先要求当前的和(初始值为0)和下一个元素求...
阅读全文
摘要:1.Builder模式 当对象的属性比较多,过于复杂时,首先要把可以聚合为一个对象的属性作为一个对象,然后这些和同一层级的属性作为这个类的属性。比如定义了一个模版,里面有检测器,取值器,又有设备属性等,那么这些同一层级的作为第一个对象的属性(也就是模版的),然后检测器等对象各自再有...
阅读全文
摘要:尊重原创,原作者标注了未经允许不能转载,所以在这里留存一下,作为备份吧,粘贴到印象笔记里没准以后整理时就贴到博客里了,还是收藏在博客里好了。 http://blog.csdn.net/xianlingmao/article/details/7919597
阅读全文
摘要:一些自己印象笔记收录的资料,这里先留存链接,等闲下来整理成文。 编程时注意的一些小技巧,配合GC,及早释放无用对象占有的内存,或者减少内存的使用,比如无用对象的置null,少用new对象,StringBuffer,容器大小给予一定初始化等。 转自:http://blog.csdn....
阅读全文
摘要:本文包含以下几个部分:支持向量机–SVM简介 LibSVM的安装 LibSVM的使用 LibSVM参数调优 Java版LibSVM库函数的调用 SVM简介在进行下面的内容时我们认为你已经具备了数据挖掘的基础知识。SVM是新近出现的强大的数据挖掘工具,它在文本分类、手写文字识别、图像...
阅读全文
摘要:转自:http://leftnoteasy.cnblogs.com, 一、线性分类器:首先给出一个非常非常简单的分类问题(线性可分),我们要用一条直线,将下图中黑色的点和白色的点分开,很显然,图上的这条直线就是我们要求的直线之一(可以有无数条这样的直线)image 假如说,我...
阅读全文
摘要:因为2015年原单位实习转正时给的待遇不错,加上组里团队氛围非常融洽,我最小,老大哥们对我都很照顾(当然人际关系是相互的),一直很不舍这种生活。可是公司的图像算法项目并没有那么多,也没有那么难,或者说挑战不多;而当时决定留下一个重要原因是sku这块CEO想要做大,后期说会有数据挖掘...
阅读全文
摘要:一简介Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。二特点Sqoop中一大亮点就是可以通...
阅读全文
摘要:以前工作中使用过redis,但是一般是存key,value,而value里我们通常存一个Json,取出后再解析Json获得相应的信息,还有一些在服务器上的redis查询操作,用来检查一些数据是否异常,当然也可以做成webservice,在本地调。redis是一种nosql类型的内存...
阅读全文
摘要:1.ChinaKDD,数据挖掘研究院,强烈推荐,里面有很多很好的学习资料 http://www.chinakdd.com/article-oyU85v018dQL0Iu.html2.机器学习好多优化的帖子 http://lib.csdn.net/base/2 ...
阅读全文
摘要:原帖地址:http://www.cnblogs.com/tornadomeet/p/3395593.html 以下均为转载 前言: 找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习/数据...
阅读全文
摘要:将印象笔记以前用过纪录的一些指令转到博客。 mkdir rm touch vi a.txtmount –o remount,rw / 这个命令来让我们的/路径文件系统为可读模式grep -A -B -C -c(count) -a(binary)cat server.log |gre...
阅读全文
摘要:原帖:http://blog.csdn.net/shiwei408/article/details/7602324 在做分类时常常需要估算不同样本之间的相似性度量(SimilarityMeasurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什...
阅读全文
摘要:欧式距离很常用,分离器最后计算时很多都是用欧式距离, 公式: [(x1-x2)^2+(y1-y2)^2]^1/2但是很多时候,特征的各个维度(属性)的数值差异很大,比如身高,体重,有时候我们常用标准化来解决,比如求取每种特征的Max和Min,然后用特征的值去除以(Max-Min),...
阅读全文
摘要:同学很久以前做的,那时候我刚实习,他刚参加工作(他是两年制),那时候开始对数据挖掘感兴趣,他发给我的他自己做的demo。记得他要毕业时,还一起帮着想kmeans创新点,如今他已经从事数据挖掘工作两年了。 他的博客地址:http://www.cnblogs.com/niuxiaoha...
阅读全文
摘要:四、定义:如果一个问题的规模是n,解这一问题的某一算法所需要的时间为T(n),它是n的某一函数 T(n)称为这一算法的“时间复杂性”。当输入量n逐渐加大时,时间复杂性的极限情形称为算法的“渐近时间复杂性”。我们常用大O表示法表示时间复杂性,注意它是某一个算法的时间复杂性。大O表示只是说有上界,...
阅读全文
摘要:最近休息的状态,所以将以前工作时纪录在“印象笔记”的较好的资料和以前自己的一些想法,逐步整理到博客里吧。一、概念 时间复杂度是总运算次数表达式中受n的变化影响最大的那一项(不含系数) 比如:一般总运算次数表达式类似于这样: a*2^n+b*n^3+c*n^2+d*n*lg(n)+e...
阅读全文
摘要:职业规划原因吧,耗时半个月的交接后,终于加入了裸辞大队,说句题外话,领导一再劝我找到心仪的再走,但是自己想着背水一战吧,如果有人也有这种想法的话,我觉得你可以等等,因为即使原单位帮你交了一个月的社保等其他东西,但是你还会有压力,过程有些熬人。 这是离职后的第一个面试(还没开始投简历...
阅读全文
摘要:基于ostu的无监督文本聚类 对于区分不同店铺的小票效果良好 同店铺小票不同类别区分效果一般,但是对于离群点定位(小样本类别很精准),借鉴了TF/IDF的思想,还有词处理时的去停词,词频因素的考虑优化,分类的阈值计算为每次基于相似度集合的前后背景最大分割点,不断二分类(其实也可以随...
阅读全文
摘要:在使用mysql时,如果数据库会被频繁多人调用,有必要使用连接池来帮助协调,使用C3P0连接池时想要用多个数据库时,需要分别定义ComboPooledDataSource的静态对象。举例如下:public class ConnOfC3P0Util { private stat...
阅读全文
摘要:首先是基本的投影:/** * 图像向x轴做投影后的数组 * * @param imagedata * @param w * 宽 * @param h * 高 * @retu...
阅读全文
摘要:SVM推导里看过的不错的两个帖子,还有就是《机器学习实战》中的SVM那一章的SMO的简单实现的python代码,学习SVM的可以看一看,比《统计学习》书里的部分,细节要详细些。也可以看看周志华老师的《机器学习》,svm那一章从margin到对偶求解,kkt条件,以及SMO,核函数,...
阅读全文
摘要:转载自:http://blog.sina.com.cn/s/blog_6622f5c30101datu.html 特征提取步骤: 1. 卡方检验1.1 统计样本集中文档总数(N)。 1.2 统计每个词的正文档出现频率(A)、负文档出现频率(B)、正文档不出现频率)、负文档不出现...
阅读全文