上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 29 下一页
摘要: /** * Created by lkl on 2017/6/27. */ import java.sql.{DriverManager, ResultSet} import org.apache.spark.SparkContext import org.apache.spark.SparkConf import java.math.BigDecimal object layer { ... 阅读全文
posted @ 2017-07-17 10:08 残阳飞雪 阅读(800) 评论(0) 推荐(0) 编辑
摘要: 数据源为从新浪,腾讯,搜狐三个财经网站爬取而来,C++先进行过分词; 这边对分词后的词进行处理,代码如下: 阅读全文
posted @ 2017-07-17 10:05 残阳飞雪 阅读(393) 评论(0) 推荐(0) 编辑
摘要: 系统的目标有两个: 一是行业分类; 二是每个行业的情感值计算; ①因为是基金推荐项目,分析了国民经济分类和同花顺,最终采用同花顺的66个行业分类为标准。 ②行业分类依据词,词库采用从百度词库、搜狗细胞词库手工分析下载而来,下载而来的是未解析的格式, 我这里以‘深蓝词库转换’这个工具进行转换成对应的6 阅读全文
posted @ 2017-07-17 09:55 残阳飞雪 阅读(482) 评论(0) 推荐(0) 编辑
摘要: 网上找了半天,终于把要安装的资料找到了。其他的不怎么全,就自己再次总结一下写。 我自己安装的是python 2.7。所以以下的东东都是针对2.7的软件。 numpy :http://sourceforge.net/projects/numpy/files/NumPy/1.8.1/ 下载下面的nump 阅读全文
posted @ 2017-06-01 14:22 残阳飞雪 阅读(611) 评论(0) 推荐(0) 编辑
摘要: 比如一个表里只有contact字段 阅读全文
posted @ 2017-06-01 13:20 残阳飞雪 阅读(501) 评论(0) 推荐(0) 编辑
摘要: 方法1 统计逻辑:统计一个loginname的所有去重的通讯录数C,统计这个Loginname对应的每个设备对应的通讯录c1,c2,c3…cn; X=(c1/c+c2/c+c3/c+….cn/c)/n=(c1+c2+…cn)/(c*n) 数据表现如下: 将3个以上设备计算出来的结果关联上黑名单库,在 阅读全文
posted @ 2017-05-02 09:44 残阳飞雪 阅读(2886) 评论(0) 推荐(0) 编辑
摘要: 现在做一个反欺诈内容要用到笛卡尔积,用来分析用户一个手机号,对应的多个设备,每个更换设备的时间,这里取的时间是系统收集时间,用来代表更换的时间, 所以要先对设备换的时间作排序,然后进行rank,最后求每2个设备之间的更换时间间隔。SELECT a.loginname,a.deviceid,a.time,Row_Number() OVER (partition by a.loginname ORD... 阅读全文
posted @ 2017-04-21 10:47 残阳飞雪 阅读(204) 评论(0) 推荐(0) 编辑
摘要: select from_unixtime(unix_timestamp(r.collecttime,'EEE MMM dd HH:mm:ss zzz yyyy'),'yyyy-MM-dd HH:mm:ss')from r_contactcheat_detail r limit 5; 阅读全文
posted @ 2017-04-20 17:59 残阳飞雪 阅读(575) 评论(0) 推荐(0) 编辑
摘要: create table location( location string, ip string, name string, city string, classfication string, citycode string )ROW FORMAT DELIMITEDFIELDS TERMINA 阅读全文
posted @ 2017-04-19 11:25 残阳飞雪 阅读(401) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2017-03-06 19:47 残阳飞雪 阅读(8) 评论(0) 推荐(0) 编辑
上一页 1 ··· 3 4 5 6 7 8 9 10 11 ··· 29 下一页