摘要:
电子商务行当的数据统计,以前认为数据挖掘是那么神圣,其实更重要的是对数据的敏感。那些数据有用?那些数据没用?那些数据有什么用?那些数据对什么有用?下面说说我的一些看法。一个电子商务网站应该统计那些数据。 1、流量数据: a)流量来源明细。这个说明入口引流的质量如何。 b)流量去向明细。这说明产品或者活动的吸引力如何。 c)访问了哪些产品。这说明当前访客对什么感兴趣。 d)购买了哪些产品。当前顾客需要什么产品。 e)回头访客的访问路径。顾客比较关注什么类型的产品。 f)访客的收藏。顾客比较关心的东西,至少当时客户曾经想购买来着。 g)等等。 2、销售数据: a)收货人信息。订... 阅读全文
摘要:
下图是一个网站分析的生命周期示意图,在确认好分析需求并收集好我们所需要的数据后(强调一下,明确分析需求很重要,这可以避免为了分析而分析),我们就可以充分使用网站分析工具的各种报告对数据展开分析。但网站分析工具中的数据量非常大,你可能一不小心就淹没在数据的海洋中,你得有一个明确的分析思路,知道要利用哪些报告或哪些报告视图才能帮助你快速找到问题的答案。以下是网站分析中涉及到的数据模块,这也提供了一个网站数据分析的大概思路。根据上边的数据模块所涉及的内容,在网站分析报告中我一般会对下边所列出的板块与指标进行具体分析(以下列出的是在网站数据分析中一些我个人觉得比较重要的板块与指标,不同的网站重要的数据 阅读全文
摘要:
基于物品的协同过滤ItemCF数据集字段:1. User_id: 用户ID2. Item_id: 物品ID3. preference:用户对该物品的评分算法的思想:1. 建立物品的同现矩阵A,即统计两两物品同时出现的次数数据格式:Item_id1:Item_id2 次数2. 建立用户对物品的评分矩阵B,即每一个用户对某一物品的评分数据格式:Item_id user_id:preference3. 推荐结果=物品的同现矩阵A * 用户对物品的评分矩阵B数据格式:user_id item_id,推荐分值4. 过滤用户已评分的物品项5.对推荐结果按推荐分值从高到低排序原始数据:1,101,5.01, 阅读全文
摘要:
http://yusun.iteye.com/blog/1671636 阅读全文
摘要:
引言何 为大矩阵?Excel、SPSS,甚至SAS处理不了或者处理起来非常困难,需要设计巧妙的分布式方法才能高效解决基本运算(如转置、加法、乘法、求逆) 的矩阵,我们认为其可被称为大矩阵。这意味着此种矩阵的维度至少是百万级的、经常是千万级的、有时是亿万级的。举个形象的栗子。至2012年12月底,新 浪微博注册用户数超5亿,日活跃用户4629万[1],如果我们要探索这4000多万用户可以分成哪些类别,以便深入了解用户共同特征,制定精准营销策 略,势必要用到聚类相关的算法(比如新浪大牛张俊林就利用聚类算法来挖掘新浪微博中的兴趣圈子[2]),而聚类算法都需要构造用户两两之间的关系,形成 n*n的矩阵 阅读全文
摘要:
1.PiggyBank – Api文档(0.12.0版本)http://pig.apache.org/docs/r0.12.0/api/piggyBank 源代码https://cwiki.apache.org/confluence/display/PIG/PiggyBank2.Datafu - LinkedIn的用户自定义函数(UDF)集合包含一系列离线计算函数:统计计算函数 •分位数/中位数, 方差 •包(Bag)运算 •包的分割合并, 添加序号 •链接分析(Link Analysis) •PageRank. •地理函数 •计算两个经纬度的距离Datafu官方页面: http://data 阅读全文
摘要:
grep本身就可以查找多个文件,通过find将文件名传入即可。grep -n "g_convert" $(find . -name "*.c")grep -n "/home" $(find . -name "*.pig")find 文件查找命令,用find命令在我们的系统中查找所需的文件。 搜索文件里面的内容一般用grep,grep 文本搜索,是一种强大的文本搜索工具,它能使用正则表达式搜索文本,并把匹配的行打印出来。可以使用grep命令在文件中查找指定的字符串。 -n 在匹配的行前面打印行号 -w 精确查找 例: 阅读全文
摘要:
原博文 http://my.oschina.net/alphajay/blog/34876awk经常使用的正则表达式举例^ 行首$ 行尾^ [ t h e ] 以t h e开头行[ S s ] i g n a [ l L ] 匹配单词s i g n a l、s i g n a L、S i g n a l、S i g n a L[Ss]igna[lL]". 同上,但加一句点[ m a y M A Y ] 包含m a y大写或小写字母的行^ U S E R $ 只包含U S E R的行[tty]$ 以t t y结尾的行" . 带句点的行^ d . . x . . x . . x 阅读全文
摘要:
http://www.cnblogs.com/emanlee/category/160107.htmlhttp://blog.csdn.net/xiazdong/article/category/1226802 阅读全文
摘要:
大写 小写 中文名 A α 阿尔法 B β 贝塔 Γ γ 伽玛 Δ δ 德尔塔 Ε ε 伊普西隆 Ζ ζ 泽塔 Η η 伊塔 Θ θ 西塔 Ι ι 约塔 Κ κ 卡帕 ∧ λ 兰姆达 Μ μ 米欧 Ν ν 纽 Ξ ξ 克西 Ο ο 欧米克隆 ∏ π 派 Ρ ρ 柔 ∑ σ 西格玛 Τ τ 陶 Υ υ 玉普西隆 Φ φ 弗爱 Χ χ 凯 Ψ ψ 普赛 Ω ω 奥米伽 阅读全文
摘要:
1. 用awk的match匹配URL,注意一下如果匹配带/开头或者/结尾的字符串时,需要处理一下,变成[/],对于分号也需要处理,采用ASCII码\\x3Bj = foreach i generate time,city,user,referer;k = stream j through `awk '{ refer=$4 tt="" if(match(refer,"http://sou.zhaopin.com")) tt="职位搜索频道页" else if(match(refer,"http://sou.zhaopi 阅读全文
摘要:
日志中的时间为 17/Jul/2013:22:00:06 +0800]a = load '/user/grid/full/201311{23,24,25}/*' using logloader() AS (remoteAddr:chararray, remoteLogname, user, time:chararray, method, uri:chararray, proto, status, bytes, referer:chararray, userAgent);b= foreacha generate SUBSTRING(time,0,20) as d1:chararr 阅读全文
摘要:
今天写pig脚本时,范了个低级错误,在awk中使用了sub作为变量名,结果执行pig脚本总报错2.txt文件有两列内容256;005;006;578,005005;006,007,259007;598,007功能要求:从第一列中匹配第二列的内容,匹配到的输出--*********************************************************************a = load '2.txt' using PigStorage(',') as (c1:chararray,c2:chararray);b = stream a t 阅读全文
摘要:
最近在研究windows环境下编写mapreduce程序,遇到一些问题,但终于得以解决,现在总结一下。编写mapreduce的步骤:1.由于没用mapreduce的eclipse插件,我就直接把hadoop的相关包引入到项目中。2.编写mapreduce程序,这个没什么说的。3.不用引入core-site.xml,hdfs-site.xml,mapred-site.xml,反正我引入项目后,报集群配置错误,我就没用这三个文件。在运行过程中碰到以下几个问题:1.写hdfs权限问题,最直接的方法就是直接修改hdfs 目录的权限,在linux 环境中执行该命令:hadoop fs -chmod 77 阅读全文
摘要:
在windows环境下,用myeclipse开发hadoop程序,报错:org.apache.hadoop.security.AccessControlException: org.apache.hadoop.security.AccessControlException: Permission denied: user=Anny。。。。。。。。。我在网上找到以下这篇文章,参照第二种方法,在linux环境下修改了hdfs目录的权限,这样就可以通过JAVA程序就能正常对hdfs目录下的文件进行操作了。hadoop fs -chmod 777 /user/anny原文章:http://blog.c 阅读全文
摘要:
今天用java连接sqlserver 2005的多实例时,发现总是报错"error while performing database login with the xxx driver,";在网上找到一篇文章,如下:java语言中,通过jdbc访问sqlserver2005数据库默认实例可以按正常的写法来建立url连接,代码如下:Connection cn = DriverManager.getConnection("jdbc:sqlserver://172.16.5.2:1433; DatabaseName=EAS60_Demo", "sa 阅读全文
摘要:
基本格式 : * * * * * command 分 时 日 月 周 命令第1列表示分钟1~59 每分钟用*或者 */1表示 第2列表示小时1~23(0表示0点) 第3列表示日期1~31 第4列表示月份1~12 第5列标识号星期0~6(0表示星期天) 第6列要运行的命令crontab文件的一些例子:30 21 * * * /usr/local/etc/rc.d/lighttpd restart 上面的例子表示每晚的21:30重启apache。45 4 1,10,22 * * /usr/local/etc/rc.d/lighttpd restart 上面的例子表示每月1、10、22日的... 阅读全文
摘要:
1.读取当前时间date返回结果: 2013年 04月 16日 星期二 17:03:09 CST2. 设置当前日期格式date +%Y-%m-%d返回结果:2013-04-163.将当前日期赋值给变量DATE=$(date +%Y%m%d)echo $DATE返回结果: 201304164.获取明天的日期date -d next-day +%Y%m%d返回结果:201304175.获取昨天的日期date -d last-day +%Y%m%d返回结果:20130415或者 y=`date -d "-1 days" +%Y%m%d`;6.获取上个月的年月date -d las 阅读全文
摘要:
1. 终端打印 命令 echoecho "字符串"str="hello word"echo $str 或者 echo ${str}str="hello world!" 执行报错 -bash: !": event not found对于有"!"符号的输出,可以在echo之前,执行 set +H 命令,然后再echo输出.2.终端打印命令 printfprintf "%-5s %-10s %-4.2f\n" 1 james 90.5789%s, %c, %d, %f都是格式替代符号.对于e 阅读全文
摘要:
前段时间,用Mvc4 web api写入restful架构的http api接口,提供了XML和json两种返回结果。但是同事在通过WebRequest获取的XML返回结果,用XmlDocument.LoadXml时报错“根节点数据无效”,通过网上baidu,原来是对象经过XML序列化后,会加入一些特定字符,网上给出的处理办法如下:LoadXml:Data at the root level is invalid. Line 1, position 1.在使用XmlDocument的LoadXml方法加载xml时,如是提示。意思是第一行第一个字符错误,因为xml要求文件开始必须是<?xm 阅读全文