摘要: 采用逻辑回归、随机森林等算法通过学习用户前四个月(04.15~08.15)的用户行为预测用户第五个月(08.15~09.15)将会购买的品牌。评价方式按照F1排名,F1=2×P×R/(P+R)其中,P是准确率为命中的数量除以用户的预测数,R是召回率为命中的数量除以真实的购买数。 阅读全文
posted @ 2014-08-21 16:03 SONGHY 阅读(566) 评论(0) 推荐(0) 编辑
摘要: CSLM工具(continuous space language model toolkit)用于训练NNLM,支持SRILM、KENLM(默认)语言模型工具,CUDA加速,CSTM统计机器翻译。 本文粗略介绍在SRILM与CUDA环境下配置CSLM工具过程。操作系统为Ubuntu64bit 13.04 桌面版,Xeon系列CPU,GEFORCE显卡... 阅读全文
posted @ 2014-07-03 17:17 SONGHY 阅读(712) 评论(1) 推荐(0) 编辑
摘要: 语言学习过程,人脑结构,单词存储位置,最短路径学习过程,通过大量接触语言,对话,对对话中的不同类词,不同情况下出现的位置属性性质等进行聚类操作,即相同类型的词存储在较近的位置,例如名词与名词存储在距离较近的位置上,动词与动词存储在较近的位置上,不同类词之间有主干道进行连接,连接的方式即为语言中的语法结构,某类词只能与某类词搭配的原因即不同词之间只能走主干道进行互联,在大脑中,有这样的情形发生,第一反应,第一印象,脱口而出…这即可理解为存储信息的神经元之间的最短路径问题,因为两者间距离最短传输时间最短,则能构成完整的一个句子的速度最快,从而形成了最优可能,或是日常中最基本的对话,即用最基本的词类 阅读全文
posted @ 2013-04-21 12:22 SONGHY 阅读(306) 评论(0) 推荐(0) 编辑
摘要: As for Multi-Layer Perceptron, it can be taken as a combination of many Linear Classifications, using many hyper plane to split the space and separate... 阅读全文
posted @ 2013-04-18 22:51 SONGHY 阅读(583) 评论(0) 推荐(0) 编辑
摘要: Classification, to find out which bounder side of a point or get the bounder to separate the dataset. This article is mainly about Linear Classificati... 阅读全文
posted @ 2013-04-11 10:03 SONGHY 阅读(324) 评论(0) 推荐(0) 编辑
摘要: K-means is a very generic clustering algorithm, using four steps to separate the points into clusters. The following part show how it works:1. Initial... 阅读全文
posted @ 2013-04-07 01:32 SONGHY 阅读(1265) 评论(0) 推荐(0) 编辑
摘要: 设计构想如下图: 通过历年上证日指数据,对未来数据进行上涨或下降的预测,尚不对成交量及成绩额进行预测。未来实现过程中采用方案2,代码编写中…模型说明:对于一由0/1组成的字符串,按照每一个字符为一个单位,统计从状态0转换到状态0 or 1的概率,以及从状态1转换到状态0/1的概率,并将其转化成矩阵,上图可转化为矩阵:;当考虑字符串按照两个字符为一组进行组合时,按照三个字符为一组,四个…考虑到股票交易市场,连续5天交易的情况,将分组上限划分为五个元素为一组(如000001可被划分为两组:00000 && 00001),五种划分方式分别求出状态转换间对应的概率,并对转换的矩阵求矩阵 阅读全文
posted @ 2013-04-07 01:24 SONGHY 阅读(1000) 评论(2) 推荐(0) 编辑
摘要: In data mining there are four main problems, clustering, classifying, regression and dimension reduce, to be discussed. And this issue is mainly about Decision Tree in classification. For some data that we’ve known, calculate the decision tree, and use the tree to deal with new points, telling which group the new, coming points belong to. 阅读全文
posted @ 2013-03-27 23:16 SONGHY 阅读(392) 评论(0) 推荐(0) 编辑
摘要: 进入多核时代,主流操作系统对多核的利用,进程资源的管理也各有差别。就移动端设备言,苹果自家研发处理器,从不以内核数取胜。而近年来,arm处理器希望借增加内核数量来提高处理速度,提升用户交互效果。运行在多核架构上的操作系统以安卓为代表,安卓使用Linux内核对进程进行管理分配调度,而Linux内核对于多核的利用可简单的理解为将不同进程的线程放在不同内核的就绪队列上,虽然增大了程序间的并发访问量或吞吐量,但是线程间的同步、调度并不会随着内核数的增加成线性增加,反而会降低,安卓较苹果高配但游戏丢帧、卡顿现象不能完全归因于其采用虚拟机的设计架构。为增加对多核的利用,安卓对后台程序的管理,采用后台挂.. 阅读全文
posted @ 2013-03-20 18:17 SONGHY 阅读(580) 评论(0) 推荐(0) 编辑
摘要: 今年的Google I/O 2013页面在抢票开始前夕又玩出了新的花样,点击O和I字母可作为作为密码来输入,只要能达到8位数,尝试多次就能得到答案。Google多次在活动中隐藏网址,作者尝试破解但仍尚未得到答案,可匹配的密码已经按照前两位大小排序,在尝试使用摩尔斯电码解密时,未能发现开始结束标志,也未能找到“Google”全部字母拼写组合,但不排除使用英文简写的可能,如GW->good work/google work等;此外将二进制数字转化成ASCII码格式,考虑到ascii码为7位,数字进行修改:42, 57, 69, 83, 117, 127, 129, 136, 144, 211 阅读全文
posted @ 2013-03-07 10:54 SONGHY 阅读(744) 评论(0) 推荐(0) 编辑