摘要: 1.简单实例:向量相加 下面我们通过两个向量相加的简单例子来看一下Tensorflow的基本用法。 import tensorflow as tf with tf.Session(): input1 = tf.constant([1.0 1.0 1.0 1.0]) input2 = tf.const 阅读全文
posted @ 2017-11-24 16:30 飞末 阅读(546) 评论(0) 推荐(0) 编辑
摘要: idea中hbase的sbt依赖: "org.apache.hbase" % "hbase-server" % "2.1.0", "org.apache.hbase" % "hbase-common" % "2.1.0", "org.apache.hbase" % "hbase-client" % 阅读全文
posted @ 2017-11-23 11:15 飞末 阅读(4519) 评论(0) 推荐(0) 编辑
摘要: python版本为2.7 1.去官网下载BeautifulSoup4 Beautiful Soup 4.3.2 2.解压文件 将下载得到的压缩包解压到任意文件夹,路径不含中文 3.打开cmd命令提示符 进入解压后的目录,我这里是C:\Python27\bs4\beautifulsoup4-4.3.2 阅读全文
posted @ 2017-10-24 09:17 飞末 阅读(210) 评论(0) 推荐(0) 编辑
摘要: 如何在没有大量用户数据的情况下设计个性化推荐系统并且让用户对推荐结果满意从而愿意使用推荐系统,就是冷启动问题。 冷启动问题主要分为三类: (1) 用户冷启动:如何给新用户做个性化推荐的问题,新用户刚使用网站的时候,系统并没有他的行为数据; (2) 物品冷启动:解决如何将新的物品推荐给可能对它感兴趣的 阅读全文
posted @ 2017-10-13 08:25 飞末 阅读(1549) 评论(0) 推荐(0) 编辑
摘要: 一.windows环境下安装 根据博主写的一次性安装成功了: http://blog.csdn.net/antgan/article/details/52067441 二.linux环境下(centos6.5,JDK1.7) 1.主机名与IP的映射 2.关闭防火墙 3.vi hadoop2.5/et 阅读全文
posted @ 2017-10-12 15:24 飞末 阅读(202) 评论(0) 推荐(0) 编辑
摘要: 一、将ip地址转成long数值 将IP地址转化成整数的方法如下: 1、通过String的split方法按.分隔得到4个长度的数组 2、通过左移位操作(<<)给每一段的数字加权,第一段的权为2的24次方,第二段的权为2的16次方,第三段的权为2的8次方,最后一段的权为1 二、将数值转换为ip地址 将十 阅读全文
posted @ 2017-09-14 16:21 飞末 阅读(8463) 评论(0) 推荐(0) 编辑
摘要: 0、操作系统 centos:6.4 hadoop:2.5.0-cdh5.3.6 1、为什么要编译 spark 源码? 学习spark的第一步 就应该是编译源码,后期修改和调试,扩展集成的功能模块 2、Spark 源码编译的三种形式? a.maven 编译 # export MAVEN_OPTS="- 阅读全文
posted @ 2017-09-05 23:04 飞末 阅读(576) 评论(0) 推荐(0) 编辑
摘要: 正则表达式^开始标记 $结束标记[a-z] [A-Z][0-9]. 单个任意字符* 前面字符重复的次数>=0+ 前面字符重复的次数>=1? 前面字符重复的次数0 or 1{n,m} 前面字符重复的次数n到m次 [A-Z][0-9][0-9] B12 B1A # grep '^r.*n$' /etc/ 阅读全文
posted @ 2017-09-05 22:59 飞末 阅读(151) 评论(0) 推荐(0) 编辑
摘要: 1.修改主机名: # hostname bigdata-cdh01.ibeifeng.com # vi /etc/sysconfig/network 2.关闭linux系统的邮件功能自动提示: echo "unset MAILCHECK">> /etc/profile 3.ssh免密码登录 用户主目 阅读全文
posted @ 2017-09-05 22:39 飞末 阅读(227) 评论(0) 推荐(0) 编辑
摘要: 1.小表对大表(broadcast join) 将小表的数据分发到每个节点上,供大表使用。executor存储小表的全部数据,一定程度上牺牲了空间,换取shuffle操作大量的耗时,这在SparkSQL中称作Broadcast Join Broadcast Join的条件有以下几个: *被广播的表需 阅读全文
posted @ 2017-08-23 14:06 飞末 阅读(4168) 评论(0) 推荐(0) 编辑
摘要: 用户画像就是根据用户的特征对用户的数学建模,可以用许多标签来表示,标签就是特征空间的维度 一、用户画像的作用 1.用户精细化运营 2.商户精细化运营支持 3.个性化 4.大数据报告 5.趋势预测 二。用户画像处理流程 1.明确问题和了解数据 *需求和数据的匹配 *明确需求 分类、聚类、推荐和其他 * 阅读全文
posted @ 2017-08-18 20:48 飞末 阅读(236) 评论(0) 推荐(0) 编辑
摘要: 推荐系统目的:引导用户浏览更多的内容 一.推荐功能设计(新用户的话可以基于热度,有了用户数据以后可以进行个性化推荐) 1.个性化首页 个性化促销,关注信息推送 2.item页面 关联商品 基于浏览历史的推荐 基于购买历史的推荐 3.User页面 4.购物车页面 5.community页面 二、界面设 阅读全文
posted @ 2017-08-16 22:07 飞末 阅读(155) 评论(0) 推荐(0) 编辑
摘要: impala: 查询impala表时一定要加库名使用级联删除带有表的数据库:DROP database name cascade; insert插入的两种方式: 1. insert into employee (ID,NAME,AGE,ADDRESS,SALARY)VALUES (1, 'Rames 阅读全文
posted @ 2017-08-14 22:00 飞末 阅读(895) 评论(0) 推荐(0) 编辑
摘要: Python2.x学习笔记 first 1.编码的修改:file->setting->encoding 2.脚本的执行:1>./xxx.py 2>python xxx.py 3.print "True" a.多行语句的写法 total = item_one + \ item_two + \ item 阅读全文
posted @ 2017-08-14 21:55 飞末 阅读(139) 评论(0) 推荐(0) 编辑
摘要: 1.sbt内容: 阅读全文
posted @ 2017-08-11 16:19 飞末 阅读(1649) 评论(0) 推荐(0) 编辑
摘要: 1.windows中以本地模式运行spark遇到“Could not locate executable null\bin\winutils.exe in the Hadoop binarie”有效解决方案: 版本:idea2017.1.1+scala2.11.8+spark2.1 搞了一下午终于解 阅读全文
posted @ 2017-08-11 10:15 飞末 阅读(409) 评论(0) 推荐(0) 编辑
摘要: 1.全局环境变量 vi /etc/profile JAVA_HOME=/opt/modules/jdk1.8.0_11/ export PATH=$PATH:$JAVA_HOME/bin:$JAVA_HOME/sbin 2.用户环境变量 vi /root/.bashrc 同上 阅读全文
posted @ 2017-08-09 12:50 飞末 阅读(102) 评论(0) 推荐(0) 编辑
摘要: 1.知道某列的值的增量导入(mysql >文件) bin/sqoop import \--connect jdbc:mysql://bigdatcdh01:3306/test \--username root \--password 123456 \--table my_user \--target 阅读全文
posted @ 2017-08-08 16:52 飞末 阅读(408) 评论(0) 推荐(0) 编辑
摘要: 1.建表 CREATE TABLE IF NOT EXISTS student( time varchar(64) , num int , age int )PARTITIONED BY ( score int)ROW FORMAT DELIMITED FIELDS TERMINATED BY '\ 阅读全文
posted @ 2017-08-08 16:37 飞末 阅读(2479) 评论(0) 推荐(0) 编辑