12 2013 档案

Facebook:情侣杀手?
摘要:我记得当初MySpace受欢迎程度极高的时候,被称为“关系杀手”。当时我觉得很搞笑,不过这其实是真的:现在的社交网站已经导致了许多情侣、朋友以及家人之间的争执。想当年,如果你想看看你家那口子是不是撒谎,你得去找个私家侦探。到了现在,你要做的只是去检索一下这个死男人/女人在facebook上的留言板。... 阅读全文

posted @ 2013-12-31 09:33 AI001 阅读(210) 评论(0) 推荐(0) 编辑

Facebook竟能算出情侣何时分手?
摘要:一名康奈尔大学教授和Facebook高级工程师声称,他们已经开发出了一个Facebook算法,能够准确识别你与谁在交往(尤其是新恋情)、以及你们何时会遇到关系破裂的危险。该算法基于研究人员所谓的"离势"(disperson)新度量方法,并且会兼顾人们不同的朋友圈之间有什么联系。亲密的朋友会分享许多共... 阅读全文

posted @ 2013-12-31 09:30 AI001 阅读(145) 评论(0) 推荐(0) 编辑

分析用户的网页浏览行为与习惯
摘要:原文地址:http://www.nowamagic.net/librarys/veda/detail/352事实上,互联网用户浏览网页的习惯和顾客浏览商店中物品的习惯没有多大差别。用户打开一个新的页面,扫视一些文字,并点击第一个引起他兴趣的链接。在这过程中,页面上有大量的区域用户甚至根本没有看过。大... 阅读全文

posted @ 2013-12-27 15:58 AI001 阅读(1144) 评论(0) 推荐(0) 编辑

R语言学习日记【1】
摘要:首先推荐一本书《r语言初学者指南》R语言是解释性语言,语法和lisp、F#这类的函数语言比较像->代表从左边向右边的变量赋值,在windows下安装好R语言后,启动后会有一个GUI的界面如下图:R语言分割语句是大家喜闻乐见的分号; 阅读全文

posted @ 2013-12-27 15:30 AI001 阅读(211) 评论(0) 推荐(0) 编辑

关于浏览器的两则旧闻
摘要:旧闻一:研究称IE浏览器用户IQ比其他浏览器要低近日,来自温哥华的心理测量咨询公司“时间定量”(AptiQuant)发布了一份报告,声称使用微软旗下IE浏览器的用户,与使用其他网络浏览器的用户相比,拥有较低的智力商数(IQ)。而这样的研究结果,注定要引发一场争论。冷僻浏览器用户智商最高?AptiQu... 阅读全文

posted @ 2013-12-27 11:16 AI001 阅读(172) 评论(0) 推荐(0) 编辑

R语言介绍与安装
摘要:windows版本下载地址:http://cran.r-project.org/bin/windows/base/R语言网址:http://www.r-project.org/R语言IDE工具:http://download1.rstudio.org/RStudio-0.98.490.execent... 阅读全文

posted @ 2013-12-26 16:25 AI001 阅读(154) 评论(0) 推荐(0) 编辑

待分析数据数值化
摘要:常用的一些数据,如地区、关键词、url网址,这些需要进入到数据挖掘系统中进行处理,而由于算法常用会采用距离计算的方式进行采用,这些数据需要从字符数据转换为数值数据,并且逻辑化。通常建立一个有自递增字段的表,然后将数据去重填充进去,就得到了数值化的数据了但是这样的数据基本会有一个问题,就是各个数值之间... 阅读全文

posted @ 2013-12-26 14:45 AI001 阅读(206) 评论(0) 推荐(0) 编辑

网络环路与攻击和谷歌的四个8
摘要:公司网络由于某人携带式路由的使用,形成了网络环路,结果造成整个网络的DNS全部挂掉,IT支持找了整整一个上午还没有找到那个比手机大不了多少的小玩意是插在谁的电脑上~~~很隐秘的攻击公司路由提供的DNS不能用了,就用了谷歌的8.8.8.8了。多大气的ip。免费的DNS,为什么提供这个呢?作为一个阴谋论... 阅读全文

posted @ 2013-12-26 13:45 AI001 阅读(279) 评论(0) 推荐(0) 编辑

基于storm和hadoop的广告系统研究【5】
摘要:数值逻辑化处理许多维度上的数据并不是数值的,如一个用户访问的网页地址,搜索的关键词等等直接对这样的维度进行处理并不合适,需要进行数字化处理,一般就是用id替代然后,大多数情况下通过id只存在时序上的相关并不存在逻辑上的相关。比如id相邻的两个关键词,一个是“金融”,一个是“考古”,但是在某些算法分析... 阅读全文

posted @ 2013-12-25 11:26 AI001 阅读(135) 评论(0) 推荐(0) 编辑

科学家首次发现多重宇宙的“切实证据”
摘要:http://scienceblog.blog.163.com/blog/static/1896850072013112294426219据国外媒体报道,美国科学家发现第一个强有力的证据,证明其他宇宙存在。在对利用普朗克太空望远镜获取的数据绘制的宇宙地图进行研究之后,宇宙学家认为地图中出现的宇宙微波... 阅读全文

posted @ 2013-12-24 09:50 AI001 阅读(206) 评论(0) 推荐(0) 编辑

mahout中canopy算法应用于广告点击用户类别识别
摘要:canopy算法基本思想如下:将数据集向量化得到一个线性集合后放入内存,选择两个距离阈值:T1和T2,其中T1 > T2,T1和T2的值可以用交叉校验来确定;从线性集合中任取一点P,用低计算成本方法快速计算点P与所有Canopy之间的距离(如果当前不存在Canopy,则把点P作为一个Canopy),... 阅读全文

posted @ 2013-12-20 18:13 AI001 阅读(167) 评论(0) 推荐(0) 编辑

hadoop日志【7】----Task process exit with nonzero status of 65
摘要:处理一个13个字段的数据然后实验用的hadoop集群果然频频出现状况Task process exit with nonzero status of 65相似的问题:http://blog.csdn.net/ustbyolanda/article/details/10221599看来4G内存的虚拟机... 阅读全文

posted @ 2013-12-18 21:03 AI001 阅读(187) 评论(0) 推荐(0) 编辑

FP-growth
摘要:FP的全称是Frequent Pattern,在算法中使用了一种称为频繁模式树(Frequent Pattern Tree)的数据结构。FP-tree是一种特殊的前缀树,由频繁项头表和项前缀树构成。FP-Growth算法基于以上的结构加快整个挖掘过程。预备知识FP-Tree:将事务数据表中的各个事务... 阅读全文

posted @ 2013-12-17 13:41 AI001 阅读(280) 评论(0) 推荐(0) 编辑

奇异值分解
摘要:奇异值分解奇异值分解(Singular Value Decomposition)是线性代数中一种重要的矩阵分解,是矩阵分析中正规矩阵酉对角化的推广。在信号处理、统计学等领域有重要应用。目录1基本介绍2理论描述3几何意义4范数5应用求伪逆平行奇异值模型矩阵近似值1基本介绍奇异值分解在某些方面与对称矩阵... 阅读全文

posted @ 2013-12-17 13:37 AI001 阅读(402) 评论(0) 推荐(0) 编辑

局部加权线性回归
摘要:加权直线回归简单来说,这个过程其实是在先拟合出一条曲线,然后再用这个曲线去预测需要预测的点。但是如果这个曲线拟合得不好(或者说样本数据含有大量噪音),那么这个预测结果就会很差。局部加权线性回归对于一个数据集合(x0,y0),(x1,y1),⋯,(xm,ym),我们预测它在x点时对应的y值时,如果采用... 阅读全文

posted @ 2013-12-17 13:33 AI001 阅读(375) 评论(0) 推荐(0) 编辑

weka
摘要:Weka的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),是一款免费的,非商业化(与之对应的是SPSS公司商业数据挖掘产品--Clementine )的,基于JAVA环境下开源的机器学习(machine learning)以及数据挖掘... 阅读全文

posted @ 2013-12-17 12:43 AI001 阅读(158) 评论(0) 推荐(0) 编辑

隐马尔可夫模型
摘要:概念隐马尔可夫模型(Hidden Markov Model,HMM)作为一种统计分析模型,创立于20世纪70年代。80年代得到了传播和发展,成为信号处理的一个重要方向,现已成功地用于语音识别,行为识别,文字识别以及故障诊断等领域。它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中... 阅读全文

posted @ 2013-12-17 12:16 AI001 阅读(322) 评论(0) 推荐(0) 编辑

随机森林
摘要:在机器学习中,随机森林是一个包含多个决策树的分类器, 并且其输出的类别是由个别树输出的类别的众数而定。 Leo Breiman和Adele Cutler发展出推论出随机森林的算法。 而 "Random Forests" 是他们的商标。 这个术语是1995年由贝尔实验室的Tin Kam Ho所提出的随... 阅读全文

posted @ 2013-12-17 11:39 AI001 阅读(208) 评论(0) 推荐(0) 编辑

贝叶斯分类器
摘要:贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。贝叶斯定理公式:P(A|B)=P(B|A)*P(A)/P(B)贝叶斯网络是一个带有概率注释的有向无环图,图中的每一个结点均表示一个随机变量,图中两结点间... 阅读全文

posted @ 2013-12-17 11:38 AI001 阅读(343) 评论(0) 推荐(0) 编辑

逻辑回归(logistic regression)和线性回归(linear regression)
摘要:序号逻辑回归线性回归模型归类离散选择法模型回归分析数值类型二元一元或多元公式P(Y=1│X=x)=exp(x'β)/(1+exp(x'β))逻辑回归Logit模型(Logit model,也译作“评定模型”,“分类评定模型”,又作Logistic regression,“逻辑回归”)是离散选择法模型... 阅读全文

posted @ 2013-12-17 10:52 AI001 阅读(1652) 评论(0) 推荐(0) 编辑

写给程序员:我们这一代不是汽车工人
摘要:软件开发圈是个奇怪的圈子。尽管有着低失业率、高薪水和美好前景,显然一直处于危险和衰退之中,或者迫切需要警醒。有的开发者将最近软件开发的兴旺仅仅看做是未来衰退的前兆,并且开始写宿命型小说来警示这个即将死去的圈子。 Greg Baugues之前写过一篇文章《我们这一代的汽车工人》。他在文中比较了当今的... 阅读全文

posted @ 2013-12-16 09:41 AI001 阅读(167) 评论(0) 推荐(0) 编辑

基于storm和hadoop的广告系统研究【4】
摘要:分析数据抽取基于用户行为分析其实是文本分析的更进一步,通过对文本解析的的结果进一步数据挖掘,对用户人群进行行为分类建模,可以更有针对性的投放广告。用户访问记录大数据挖掘环境下对个人进行绝对高精度识别具有一定的困难,尤其是作为广告投放商而不是用户所属的站点,所以到手的数据更多的是用户在一定时间点内的网... 阅读全文

posted @ 2013-12-13 18:12 AI001 阅读(171) 评论(0) 推荐(0) 编辑

程序员会营销,饿死营销人员
摘要:我喜欢做工程项目,但我不是呆子。 工程师最感兴趣的不是自己所掌握的技巧和技术,而是解决从未出现过的难题的机会。问题越难解决,工程师就越兴奋。 工程师总是喜欢开销售部和营销部人员的玩笑,“最成功的销售、营销人员应该像工程师一样思考”。他们要做大量的市场研究,有系统的思维和方法,点面具到,必要时能付... 阅读全文

posted @ 2013-12-12 13:36 AI001 阅读(239) 评论(0) 推荐(0) 编辑

笑话中的数学科普
摘要:青年问禅师:“大师,我很爱我的女朋友,她也有很多优点,但是总有几个缺点让我非常讨厌,有什么什么方法能让她改变?” 禅师浅笑,答:“方法很简单,不过若想我教你,你需先下山为我找一张只有正面没有背面的纸回来。”青年略一沉思,默默地折出一个麦比乌斯环。青年问禅师:“我现在遇到很多很多的困难和烦恼,怎么办?... 阅读全文

posted @ 2013-12-12 13:25 AI001 阅读(266) 评论(0) 推荐(0) 编辑

技术牛人在阿里内网的公开信:“王坚,你为什么要放弃”
摘要:王坚,你为什么要放弃中文不佳,全用英文写又无法让更多的同学了解我的心路旅程,所以请各位原谅我蹩脚的中文。*一个简单的道理:一块2TB桌面级硬盘今天的价格约为700元,相同大小的企业级硬盘一块今天的要价仍然超过1,500元,这两个硬盘最大的差别 是RVI震动率的设置(因此,桌面级硬盘在震动率稍大的时候... 阅读全文

posted @ 2013-12-12 09:49 AI001 阅读(4405) 评论(1) 推荐(0) 编辑

hadoop日志【6】----mahout的速度
摘要:今天测试mahout的数据提取和处理结果很郁闷了一下数据提炼很快,半个小时不到完成了,就处理为vector的了但是开始使用canopy算法分析就不行了整整一个小时才跑了4%而以前相同的数据使用hive进行数据逻辑处理接近一个小时都处理完了而且小集群的五台机器全部性能消耗达到了100%,一路的全线彪红... 阅读全文

posted @ 2013-12-11 16:24 AI001 阅读(181) 评论(0) 推荐(0) 编辑

基于命令行的mahout软件0.8版本Canopy算法分析的数据处理流程
摘要:mahout软件0.8版本Canopy算法分析的数据处理分为以下三个步骤:从数据库提炼你需要处理的数据的字段依据提炼的数据处理为vectors将处理后的vectors数据读取一、从数据库提炼数据这是一个sqoop-->>hive-->>hdfs转储为vectors的过程原理:首先通过sqoop将数据... 阅读全文

posted @ 2013-12-10 18:36 AI001 阅读(244) 评论(0) 推荐(0) 编辑

WolframAlpha
摘要:WolframAlphaWolframAlpha是开发计算数学应用软件的沃尔夫勒姆研究公司开发出的新一代的搜索引擎,能根据问题直接给出答案的网站,于 2009年5月15日晚7点(美国中部当地时间,北京时间5月16日上午8点)提前上线,用户在搜索框键入需要查询的问题后,该搜索引擎将直接向用户返回答案,... 阅读全文

posted @ 2013-12-10 15:44 AI001 阅读(331) 评论(0) 推荐(0) 编辑

颠覆编程方式的感知编码:Wolfram雄心勃勃的全新计算模式
摘要:原文:http://news.cnblogs.com/n/195275/英文原文:Sentient code: An inside look at Stephen Wolfram’s utterly new, insanely ambitious computationalparadigm 200... 阅读全文

posted @ 2013-12-10 15:27 AI001 阅读(242) 评论(0) 推荐(0) 编辑

职场最让人鄙视哪种招聘面试老板
摘要:原文地址:http://blog.tianya.cn/blogger/post_read.asp?BlogID=2745139&PostID=54368452又到了大学生毕业冬季找工作的黄金时间。那天,我路过某公司,顺脚就进去想拜访一下这家公司的大老板,由于过去和这位大老板交情彼深,门卫、保安和接待... 阅读全文

posted @ 2013-12-09 13:20 AI001 阅读(191) 评论(0) 推荐(0) 编辑

谷歌为何大举收购机器人公司?
摘要:http://tech.qq.com/a/20131206/005928.htm?pgv_ref=aio2012&ptlang=2052谷歌悄悄地收购了7家机器人公司,并且委任原先领导Android项目的安迪·鲁宾(Andy Rubin)来负责机器人项目。据媒体称,可能要不了几年,你就会看到谷歌机器... 阅读全文

posted @ 2013-12-06 16:38 AI001 阅读(143) 评论(0) 推荐(0) 编辑

evercookie
摘要:https://github.com/samyk/evercookiehttp://samy.pl/evercookie/evercookie用于追踪用户行踪evercookie 是一套想辦法在瀏覽器上留下可供紀錄的痕跡的 javscript library,支援非常多方法,想盡辦法產生類似 HTT... 阅读全文

posted @ 2013-12-06 11:46 AI001 阅读(155) 评论(0) 推荐(0) 编辑

美科学家发现量子纠缠幽灵与宇宙虫洞有关
摘要:美科学家提出新的观点认为量子纠缠与宇宙虫洞之间存在关联,如果这个假设发展成理论,那么可以将量子力学和广义相对论统一起来。据国外媒体报道,美伊利诺伊州阿贡国家实验室与加利福尼亚州圣迭戈超级计算机中心联合对宇宙时空进行了研究,发现理论上存在连接遥远宇宙中两个时空的渠道,这可能与量子纠缠有关,在量子力学的... 阅读全文

posted @ 2013-12-06 09:47 AI001 阅读(174) 评论(0) 推荐(0) 编辑

Storm-YARN
摘要:运行在Hadoop集群上的Storm——即Storm-YARN的源代码。项目地址:https://github.com/yahoo/storm-yarn目前还没有版本发布 阅读全文

posted @ 2013-12-05 11:23 AI001 阅读(119) 评论(0) 推荐(0) 编辑

Twitter开源Summingbird:近原生编码下整合批处理与流处理
摘要:http://www.csdn.net/article/2013-09-04/2816816-twitter-open-sources-storm-hadoop-hybrid-called-summingbird项目地址:https://github.com/twitter/summingbird 阅读全文

posted @ 2013-12-05 11:19 AI001 阅读(187) 评论(0) 推荐(0) 编辑

基于keepalived的redis通信链接数测试
摘要:使用keepalived做负载均衡后发现了一个问题作为realserver的redis服务器上有许多打开的监听连接长久时间的不关闭做个测试,检查下问题的所在初步判断是和客户端使用redis链接的方式有关其次是由于网络波动造成的连接中断,由于keepalived的原因无法关闭realserver上被中... 阅读全文

posted @ 2013-12-02 15:08 AI001 阅读(335) 评论(0) 推荐(0) 编辑

日本研制出考试机器人 或可参加日本高考
摘要:http://scienceblog.blog.163.com/blog/static/18968500720131029101925548据俄罗斯《报纸报》11月26日消息,日本国家信息研究所联合日本富士通公司及IBM公司,共同研发可参加考试的机器人。 据研发者介绍,该项目的最终目的是研发出可通... 阅读全文

posted @ 2013-12-02 12:42 AI001 阅读(152) 评论(0) 推荐(0) 编辑

导航

点击右上角即可分享
微信分享提示