2013年6月24日

主机与虚拟机链接

摘要: VM virtualBox网络设置NAT形式 选择端口转发子系统端口不能随便设置就设置22这个时候的状态是:虚拟机能上网, ping 得通主机不过安装hadoop后虚拟机中的eclipse能连接而主机的却不能连接且主机ping不通虚拟机的ip(10.0.2.15)可通过设置第二张网卡的形式以达成目的通过设置后虚拟机会生成第二个ip(目前为192.168.56.101),且此ip为固定ip,可以将hadoop的配置中的ip设为该ip,则启动hadoop后主机的eclipse也可以连接,同时主机也能ping能该ip。经测试后发现主机的eclipse虽然能连接上hadoop,但是只能进行文件查看操作 阅读全文

posted @ 2013-06-24 17:51 JueFan_C 阅读(279) 评论(0) 推荐(0) 编辑

2013年6月14日

互联网产品评论语料的观点挖掘

摘要: 前阵子看到淘宝、百度等出了一个新的产品,用户评论观点挖掘的具体的可看下面的图片刚好手头上也有一些类似的评论语料数据,于是自己也摸索出了一些方法下面简单的介绍介绍一、 数据需求相关网站产品评论数据以下数据是通过爬虫抓取的,数据的字段如下产品型号评论标题优点缺点总结二、 算法通过观测百度的那个产品,发现主要的做法就是产品特征+观点组成的,为止,首先要找出产品的特征词,然后再寻找搭配词,基本上就是这么一个过程,具体如下......2.1特征词挖掘 通过开源分词软件分别对评论标题、优点、缺点、总结进行分词,统计出每个词(不区分词性)的词频,记为WordBag,WordBag包括俩个字段,词+词频。.. 阅读全文

posted @ 2013-06-14 15:13 JueFan_C 阅读(1031) 评论(3) 推荐(0) 编辑

2013年5月29日

List接口的俩个实现的区别

摘要: 今天闲着没事,学习一下java的知识,突然想到了List实际上有两种List: 一种是基本的ArrayList,其优点在于随机访问元素,另一种是更强大的LinkedList,它并不是为快速随机访问设计的,而是具有一套更通用的方法。 List : 次序是List最重要的特点:它保证维护元素特定的顺序。List为Collection添加了许多方法,使得能够向List中间插入与移除元素(这只推荐LinkedList使用。)一个List可以生成ListIterator,使用它可以从两个方向遍历List,也可以从List中间插入和移除元素。 ArrayList : 由数组实现的List。允许对元素进.. 阅读全文

posted @ 2013-05-29 16:45 JueFan_C 阅读(242) 评论(0) 推荐(0) 编辑

2013年5月21日

SVM旅程

摘要: 今天开始学习SVM1.1 SVM的基本原理 SVM方法是从线性可分情况下的最优分类面(OptimalHyperplane)提出的。考虑图1所示的二维两类线性可分情况,图中实心点和空心点分别表示两类的训练样本,H为把两类没有错误地分开的分类线,H1、H2分别为过各类样本中离分类线最近的点且平行于分类线的直线,H1和H2之间的距离叫做两类的分类空隙或分类间隔(margin)。所谓最优分类线就是要求分类线不但能将两类无错误地分开,而且要使两类的分类空隙最大。前者是保证经验风险最小(为0),而通过后面的讨论可以看到,使分类空隙最大实际上就是使推广性的界中的置信范围最小,从而使真实风险最小。推广到高.. 阅读全文

posted @ 2013-05-21 12:29 JueFan_C 阅读(248) 评论(0) 推荐(0) 编辑

2013年4月23日

java基础知识——类的继承

摘要: 1.在子类中通过super调用父类的方法,并将该调用嵌入复写该方法的过程中package learning;class Super { String nameString; int age; public Super(String name, int age) { this.nameString = name; this.age = age; } public void talk(){ System.out.print("姓名:" + nameString + "\t\t" + "年龄:" + age); ... 阅读全文

posted @ 2013-04-23 15:13 JueFan_C 阅读(156) 评论(0) 推荐(0) 编辑

2013年4月19日

Hive实现用户访问路径还原

摘要: 今天某位仁兄给了一道Hive的题目hive里有个表存储了 (用户ID) (点击时间) (点击网址) 输出 用户ID,点击顺序,from url ,to url。 其中点击顺序是每个id执行按时间排序后的顺序号,from url为上一次点击的网址,to url 为当次点击的网址。 顺序号为1的时候from url 为空就行了 1.实现基于纯Hive SQL的ETL过程2.实现一个能加速上述处理过程的Hive Generic UDF,并给出使用此UDF实现ETL过程的Hive SQL按照俺的理解,这个应该做UDAF跟UDTF结合比较容易于是就着手写了一些代码Part.1:View Code... 阅读全文

posted @ 2013-04-19 15:37 JueFan_C 阅读(749) 评论(0) 推荐(0) 编辑

2013年4月18日

Hive分组提取TopN操作

摘要: 今天在测试摄影部落做关联规则推荐的效果这种推荐不能算是个性化推荐,因为只要前件项目固定了,推荐列表就是固定的,推荐的结果不会跟着人走最终会成表一张规则表Table(Item_a, Item_b, Rel)其中Rel表示俩个项目之间的关系强弱为了给每个项目生成一张推荐列表,则必须按照关系强弱做分组TopN操作Hive的基础SQL没办法满足需求,只能自己写UDAF和UDTF了View Code package Item;import java.util.ArrayList;import java.util.Collections;import java.util.Comparator;import 阅读全文

posted @ 2013-04-18 17:00 JueFan_C 阅读(2470) 评论(0) 推荐(0) 编辑

2013年4月16日

基于概率的项目相似度之并行方法

摘要: 推荐系统是个好东西,数据越大一般情况下效果越好,其挑战就是运算量问题,并行处理是近几年烽烽火火的一个主题,本文就从并行的角度来实现上一篇博客的算法 实现平台:Hadoop-1.0.3 ; Hive-0.8.1 ; Eclipse SDKVersion: 3.3.2 资源:Hadoop 14 个节点 =====================================步骤=======================================Step1:底层数据的构建create external table dm_fan_prob_basic(user string,... 阅读全文

posted @ 2013-04-16 10:49 JueFan_C 阅读(417) 评论(0) 推荐(0) 编辑

2013年4月12日

基于概率的相似度定义方法

摘要: 本文的主要内容来自百分点科技问题定义:本文在基于item协同过滤算法的框架下,定义了一种新的item相似度计算方法。该方法是一种基于概率的算法,即两个item的相似度为一个用户随机的选择item,同时选到这两个item的概率。本文的实验结果表明,本文的算法准确率要比传统的算法要好,并且本文也给出了该算法在hadoop上的实现过程。方法:1. 基本定义首先定义了几个概念:分别是选择item y的用户集合和用户u选择的item集合。如果从item的角度来看,商品x被用户u选择户u选择的概率应该为这个item(x)的度比上所有user的数,即如果从user的角度来看,用户u选择商品x的概率应该为这个 阅读全文

posted @ 2013-04-12 11:47 JueFan_C 阅读(1316) 评论(0) 推荐(0) 编辑

2013年4月9日

奇异值分解(SVD)

摘要: 最近不小心接触到了SVD,然后认真看下去之后发现这东西真的挺强大的,把一个推荐问题转化为纯数学矩阵问题,看了一些博客,把一个写个比较具体的博文引入进来,给自己看的,所以把觉得没必要的就去掉了,博文下面附原始博客地址。 一、基础知识1. 矩阵的秩:矩阵的秩是矩阵中线性无关的行或列的个数2. 对角矩阵:对角矩阵是除对角线外所有元素都为零的方阵3. 单位矩阵:如果对角矩阵中所有对角线上的元素都为零,该矩阵称为单位矩阵4. 特征值:对一个M x M矩阵C和向量X,如果存在λ使得下式成立则称λ为矩阵C的特征值,X称为矩阵的特征向量。非零特征值的个数小于等于矩阵的秩。即对于矩阵C,经过初等行列变化后... 阅读全文

posted @ 2013-04-09 20:55 JueFan_C 阅读(1061) 评论(0) 推荐(0) 编辑

导航