佟学强

2017年2月7日

摘要： 2013-07-15 21:41:04 #本文的目的在于介绍回归建模时变量选择和正则化所用的R包，如glmnet,ridge,lars等。算法的细节尽量给文献，这个坑太大，hold不住啊。1.变量选择问题：从普通线性回归到lasso使用最小二乘法拟合的普通线性回归是数据建模的基本方法。其建模要点在于阅读全文

posted @ 2017-02-07 12:31 佟学强阅读(1229) 评论(0) 推荐(0) 编辑

2017年2月4日

原创：双检锁解决缓存计算机制的代码

摘要：去年写过很多高质量的代码，由于没有时间写博客，这几天集中时间上传之。去年有一篇博客，详细介绍了CAS算法和ThreadPoolExecutor源代码。现在要上传的是，利用CAS算法和双检索机制解决缓存计算机制的代码。假设有1000个线程去调用公共计算类，这1000个线程传递的值是一样的，要求得出传递阅读全文

posted @ 2017-02-04 22:03 佟学强阅读(229) 评论(0) 推荐(0) 编辑

原创：平衡的三叉树

摘要：去年3月份，写了一个平衡的三叉树算法包，还写了一个基于逆向最大匹配算法的中文分词算法包。现在，将平衡的三叉树算法包上传。首先看一下包结构： 1.chinese.utility.cfg代码： package chinese.utility.cfg;/** * 获得主词典、量词词典以及扩展词典和扩展停词阅读全文

posted @ 2017-02-04 21:22 佟学强阅读(920) 评论(0) 推荐(0) 编辑

2017年1月31日

二分查找法

摘要： package com.txq.test;public class BinarySearch { public int binarySearch(int []arr,int key){ return binarySearch(arr,0,arr.length-1,key); } private in 阅读全文

posted @ 2017-01-31 20:48 佟学强阅读(171) 评论(0) 推荐(0) 编辑

2016年12月29日

机器学习算法最深刻的讲解，包含海量数据处理算法

摘要： http://blog.csdn.net/v_july_v/ 阅读全文

posted @ 2016-12-29 20:54 佟学强阅读(168) 评论(0) 推荐(0) 编辑

2016年12月12日

从海量数据中寻找出topK的最优算法代码

摘要： package findMinNumIncludedTopN;/** * 小顶堆 * @author TongXueQiang * @date 2016/03/09 * @since JDK 1.8 */public class MinHeap { int[] heap; int heapsize; 阅读全文

posted @ 2016-12-12 18:07 佟学强阅读(1494) 评论(0) 推荐(0) 编辑

2016年12月8日

转载：基于 Hive 的文件格式：RCFile 简介及其应用---推酷

摘要： Hadoop 作为MR 的开源实现，一直以动态运行解析文件格式并获得比MPP数据库快上几倍的装载速度为优势。不过，MPP数据库社区也一直批评Hadoop由于文件格式并非为特定目的而建，因此序列化和反序列化的成本过高。 1、hadoop 文件格式简介目前 hadoop 中流行的文件格式有如下几种：阅读全文

posted @ 2016-12-08 17:33 佟学强阅读(331) 评论(0) 推荐(0) 编辑

原创：自定义三叉树（二）--基于搜索推荐系统根据用户搜索频率（热搜）排序

摘要：之前写的三叉树，有点儿简单，并不能满足实际项目的需要。先简单分析一下solr中搜索推荐系统的核心算法。 wiki中有关于solr的搜索推荐的详细描述，但是核心算法需要自己查看源代码。关于wiki上的解读，之前做了一次简单的翻译，根据此文档，详细研读了源代码，先把核心思想呈现出来。基本流程如下：当用阅读全文

posted @ 2016-12-08 14:39 佟学强阅读(446) 评论(0) 推荐(0) 编辑

2016年11月28日

原创：协同过滤之ALS

摘要：推荐系统的算法，在上个世纪90年代成型，最早应用于UserCF，基于用户的协同过滤算法，标志着推荐系统的形成。首先，要明白以下几个理论：①长尾理论②评判推荐系统的指标。之所以需要推荐系统，是要挖掘冷门物品，增加利润，这是根本目的。一般的，评判一个推荐系统的好坏，需要以下几个指标：推荐系统评测指标— 阅读全文

posted @ 2016-11-28 22:04 佟学强阅读(5423) 评论(0) 推荐(0) 编辑

2016年11月23日

原创：全排列非递归算法：微软给出的算法

摘要：关于全排列的算法研究，有很多，不论述了。采用非递归的算法，是首选。直接上传微软给出的算法： /* * 字符串全排列最优算法（非递归置换） */ public void permutation(char str[],int m,boolean duplicate){ int n = str.lengt 阅读全文

posted @ 2016-11-23 17:05 佟学强阅读(252) 评论(0) 推荐(0) 编辑

where there is a will,there is a way!All things are difficult before they are easy!

公告