残阳飞雪

2017年7月17日

摘要： /** * Created by lkl on 2017/6/27. */ import java.sql.{DriverManager, ResultSet} import org.apache.spark.SparkContext import org.apache.spark.SparkConf import java.math.BigDecimal object layer { ... 阅读全文

posted @ 2017-07-17 10:08 残阳飞雪阅读(800) 评论(0) 推荐(0) 编辑

《理财市场情绪监测系统》代码实现【2】之爬虫数据解析

摘要：数据源为从新浪，腾讯，搜狐三个财经网站爬取而来，C++先进行过分词；这边对分词后的词进行处理，代码如下：阅读全文

posted @ 2017-07-17 10:05 残阳飞雪阅读(393) 评论(0) 推荐(0) 编辑

《理财市场情绪监测系统》代码实现【1】之行业词库

摘要：系统的目标有两个：一是行业分类；二是每个行业的情感值计算； ①因为是基金推荐项目，分析了国民经济分类和同花顺，最终采用同花顺的66个行业分类为标准。 ②行业分类依据词，词库采用从百度词库、搜狗细胞词库手工分析下载而来，下载而来的是未解析的格式，我这里以‘深蓝词库转换’这个工具进行转换成对应的6 阅读全文

posted @ 2017-07-17 09:55 残阳飞雪阅读(482) 评论(0) 推荐(0) 编辑

2017年6月1日

python numpy 下载地址

摘要：网上找了半天，终于把要安装的资料找到了。其他的不怎么全，就自己再次总结一下写。我自己安装的是python 2.7。所以以下的东东都是针对2.7的软件。 numpy :http://sourceforge.net/projects/numpy/files/NumPy/1.8.1/ 下载下面的nump 阅读全文

posted @ 2017-06-01 14:22 残阳飞雪阅读(611) 评论(0) 推荐(0) 编辑

hive 添加自增列

摘要：比如一个表里只有contact字段阅读全文

posted @ 2017-06-01 13:20 残阳飞雪阅读(501) 评论(0) 推荐(0) 编辑

2017年5月2日

excel做回归分析的应用【风控数据分析】

摘要：方法1 统计逻辑：统计一个loginname的所有去重的通讯录数C,统计这个Loginname对应的每个设备对应的通讯录c1,c2,c3…cn; X=(c1/c+c2/c+c3/c+….cn/c)/n=(c1+c2+…cn)/(c*n) 数据表现如下：将3个以上设备计算出来的结果关联上黑名单库，在阅读全文

posted @ 2017-05-02 09:44 残阳飞雪阅读(2886) 评论(0) 推荐(0) 编辑

2017年4月21日

SELECT a.loginname,a.deviceid,a.time,Row_Number() OVER (partition by a.loginname ORDER BY a.deviceid desc,a.time asc) rank

摘要：现在做一个反欺诈内容要用到笛卡尔积，用来分析用户一个手机号，对应的多个设备，每个更换设备的时间，这里取的时间是系统收集时间，用来代表更换的时间，所以要先对设备换的时间作排序，然后进行rank,最后求每2个设备之间的更换时间间隔。SELECT a.loginname,a.deviceid,a.time,Row_Number() OVER (partition by a.loginname ORD... 阅读全文

posted @ 2017-04-21 10:47 残阳飞雪阅读(204) 评论(0) 推荐(0) 编辑

2017年4月20日

hive cst 时间转换

摘要： select from_unixtime(unix_timestamp(r.collecttime,'EEE MMM dd HH:mm:ss zzz yyyy'),'yyyy-MM-dd HH:mm:ss')from r_contactcheat_detail r limit 5; 阅读全文

posted @ 2017-04-20 17:59 残阳飞雪阅读(575) 评论(0) 推荐(0) 编辑

2017年4月19日

hive以文件创建表

摘要： create table location( location string, ip string, name string, city string, classfication string, citycode string )ROW FORMAT DELIMITEDFIELDS TERMINA 阅读全文

posted @ 2017-04-19 11:25 残阳飞雪阅读(401) 评论(0) 推荐(0) 编辑

2017年3月6日

数据分析资料学习网址

该文被密码保护。阅读全文

posted @ 2017-03-06 19:47 残阳飞雪阅读(8) 评论(0) 推荐(0) 编辑

公告