摘要:
刚刚学习python,遇到一些常见重复的问题,记录下来,以后使用。1. Null in Pandas: pd.isnull, pd.notnull2. Unique values in list: list(set(mylist))3. pandas rbind the DataFrames: ... 阅读全文
摘要:
一篇非常好的描述统计套利思想的文章转载:http://www.jidongshike.com/?p=360定义统计套利(Statistical Arbitrage, StatArb),即统计意义下的套利。经典套利的收益是确定的、无风险的,而统计套利的收益带有一定的不确定性。在物理实验中,人们经常采用... 阅读全文
摘要:
转载两篇打造爆款的策略首先告诉你什么是爆款,相信很多朋友都非常的清楚了。在淘宝网上,我们经常会看到某一款包包或者其他产品在30天内销售量达到几千件,评价也成千上万条,这样的产品就是所谓的爆款了。对于很多卖家来说,他们都想自己的产品能卖成这么火的程度。但是我们该怎么做才能做得到呢?是不是每款产品都可以... 阅读全文
摘要:
重点:由于基因测序产品出现同质化趋势,行业或将面临洗牌基因测序仪产生的海量数据,以及数据与医疗健康的脱节,必将催生出大量专注于数据存储、分析、解读服务的公司在基因治疗领域,中国尚处于起步阶段,而在欧盟及美国,基因治疗受到科研、临床、监管机构和投资者的热捧背景:2015年3月底,媒体披露,科技部召开首... 阅读全文
摘要:
做数据预处理一直用Hardly Wickham的plyr软件包,数据量稍微大点,基本就用data.table软件包。Hardly WickHam的dplyr软件包出来有一段时间了,在性能上又有了更大的提高。为了以后使用,做些笔记。These five functions provide the ba... 阅读全文
摘要:
1. 如果遇到Hadoop没有启动的情况,先检查$ jps1700 Bootstrap16137 TaskTracker29691 NameNode31026 DataNode6809 Jps1681 Bootstrap1662 Manager32761 JobTracker如果少了什么就需要启动相应的service. 可以在这里找到wget http://169.254.169.254/latest/user-data。service hadoop-namenode start service hadoop-datanode start service hadoop-jobtra... 阅读全文
摘要:
生存分析,维基上的解释是生存分析(Survival analysis)是指根据试验或调查得到的数据对生物或人的生存时间进行分析和推断,研究生存时间和结局与众多影响因素间关系及其程度大小的方法,也称生存率分析或存活率分析。生存分析的方法也可以用在其他的商业应用中,比如顾客流失,等模型。大概可以从两个方向上去考虑生存分析的研究对象1. 估计(各期的)生存函数,某个人病人可以活多久(e.g. 5年)的概率。常用的是Kanplan-Meier 估计。2. 研究影响生存期长短的因素及关系,这个关系有两种, a) 哪些素是最主要的因素,侧重qulitative,可以用决策树,随机森林等模型 b)各因素.. 阅读全文
摘要:
转载http://blog.sina.com.cn/s/blog_8dffbfe70100wgao.html又是一年年底,又到总结的时候。B2C们该总结什么??利润??毛利??成本??空洞的文字一定会很苍白,很业余。数据,用数据说话。笔者根据B2C运营的的业务特点,建立了整体B2C运营体系的数据模型,技术部已经开始对接商城后台,实施我们WEB版的数据分析后台。明年我们的运营部,将逐步实现运营数据化,以数据为指导思想,来发现问题,解决问题,逐步使我们的运营工作稳健的上一个又一个台阶。第一项:日常性数据(基础)1.流量相关数据:1.1IP1.2PV1.3在线时间1.4跳出率1.5新用户比例2.订单 阅读全文
摘要:
1. 将写好的R script 用save with Encoding保存UTF-8格式,这样,下次打开R script 就不会出现乱码了。2. R script 中的作图,也可加入中文的标题,e.g.plot(fc.stl, main="季节调整法的数据分解",family='仿宋')3. 使用g... 阅读全文
摘要:
张亚勤表示,大数据具有高容量、高速度、多类型等“3V”的特点,应用大数据发挥价值包括数据的管理、数据的扩充、数据的呈现三个层面。大数据的3V 张亚勤表示,讲到大数据3个V,一个是Volume,数据容量越来越大,第二个是 Velocity,数据量增长越来越快,需要处理的速度和响应的时间越来越快,对系统的延时要求相当高。第三个就是各种各样类型的数据,过去的数据更多的是结构化的,现在越来越多的数据是半结构,甚至是完全没有结构的数据,从企业里来的、从互联网来的,从用户来的各种各样的数据都大量进入我们的服务器、进入数据中心,所以这里面产生了很多的挑战,这么多数据怎么样把它变成信息,怎么样把信息变成知识. 阅读全文