摘要: from collections import defaultdict import math class MaxEnt(object): def __init__(self): self.feats = defaultdict(int) self.trainset = [] self.labels 阅读全文
posted @ 2017-08-21 21:58 energy1989 阅读(53) 评论(0) 推荐(0) 编辑
摘要: Datasets for ranking (LETOR datasets) MSLR-WEB10k and MSLR-WEB30k You’ll need much patience to download it, since Microsoft’s server seeds with the sp 阅读全文
posted @ 2017-07-31 10:34 energy1989 阅读(96) 评论(0) 推荐(0) 编辑
摘要: 1.在eclipse中使用vi模式的插件Vrapper 打开eclipse,在Help菜单,点击Install New Software,在Work with输入以下网址,然后回车:http://vrapper.sourceforge.NET/update-site/stable。名字随便起一个vi 阅读全文
posted @ 2017-07-28 17:31 energy1989 阅读(1440) 评论(0) 推荐(0) 编辑
摘要: 现在把做短线的看盘方法总结后介绍给大家。需要说明的是: (1)这些方法只是对前人的理论进行了实践。并且在实践中多次得到了证实。(2)以下的看盘方法可能不是每一个都实用,也不是有了这些方法就能保证你只赚不亏。希望大家举一翻三。1、每个板块都有自己的领头者,看见领头的动了。就马上看第二个以后的股票。如看 阅读全文
posted @ 2017-07-20 16:51 energy1989 阅读(43) 评论(0) 推荐(0) 编辑
摘要: mahoutDriver mahoutDriver加载driver.classes.default.props 文件制定每个简称所对应的类名 #Utils org.apache.mahout.utils.vectors.VectorDumper = vectordump : Dump vectors 阅读全文
posted @ 2017-07-10 11:08 energy1989 阅读(121) 评论(0) 推荐(0) 编辑
摘要: 1.mapValus 2.flatMapValues 3.comineByKey 4.foldByKey 5.reduceByKey 6.groupByKey 7.sortByKey 8.cogroup 9.join 10.LeftOutJoin 11.RightOutJoin 1.mapValus 阅读全文
posted @ 2017-06-12 14:29 energy1989 阅读(100) 评论(0) 推荐(0) 编辑
摘要: 根据tomcat日志计算url访问了情况,具体的url如下, 要求:区别统计GET和POST URL访问量 结果为:访问方式、URL、访问量 输入文件: 196.168.2.1 - - [03/Jul/2014:23:36:38 +0800] "GET /course/detail/3.htm HT 阅读全文
posted @ 2017-06-02 16:20 energy1989 阅读(150) 评论(0) 推荐(0) 编辑
摘要: 在随机森林中的随机性体现在:1.训练数据的随机性 2. 选择分割属性的随机性 能解决分类与回归问题,并且都有很好的估计表现 1.生成数据说明文件 mahout describe -p input.csv -f input.info-d2 I 3 N I 5 N I 3 C L(执行describe生 阅读全文
posted @ 2017-05-31 22:08 energy1989 阅读(314) 评论(3) 推荐(0) 编辑
摘要: 深度优先算法的核心是(翻译的维基): 1、将起点作为当前格并标记 2、当还存在未标记的格时 ——1、如果当前格有未标记的邻格 ————1、随机选择一个未标记的邻格 ————2、将当前格入栈 ————3、移除当前格与邻格的墙 ————4、标记邻格并用它作为当前格 ——2、反之,如果栈不空 ————1、 阅读全文
posted @ 2017-05-29 22:34 energy1989 阅读(105) 评论(0) 推荐(0) 编辑
摘要: 个性化推荐根据用户兴趣和行为特点,向用户推荐所需的信息或商品,帮助用户在海量信息中快速发现真正所需的商品,提高用户黏性,促进信息点击和商品销售。推荐系统是基于海量数据挖掘分析的商业智能平台,推荐主要基于以下信息: 热点信息或商品 用户信息,如性别、年龄、职业、收入以及所在城市等等 用户历史浏览或行为 阅读全文
posted @ 2017-05-24 22:05 energy1989 阅读(2478) 评论(0) 推荐(0) 编辑
摘要: 交换两个数组值使两个数组之差最小 有两个序列a,b,大小都为n,序列元素的值任意整数,无序; 要求:通过交换a,b 中的元素,使[序列a 元素的和]与[序列b 元素的和]之间的差最小。 例如: var a=[100,99,98,1,2, 3]; var b=[1, 2, 3, 4,5,40]; 假设 阅读全文
posted @ 2017-05-17 22:50 energy1989 阅读(110) 评论(0) 推荐(0) 编辑
摘要: public class Solution{ public List<List<Integer>> permutations(int[] arr){ List<List<Integer>> res = new ArrayList<List<Integer>>(); //corner if ( arr 阅读全文
posted @ 2017-05-17 15:27 energy1989 阅读(24) 评论(0) 推荐(0) 编辑
摘要: 问题: 给n个不同的正整数, 取m个数使得和为sum, 其中任意数可以重复取多次 例如:set [2, 3, 6, 7] and target 7, 结果有[7] ,[2,2,3] public class Solution { public List<List<Integer>> combinat 阅读全文
posted @ 2017-05-17 14:27 energy1989 阅读(33) 评论(0) 推荐(0) 编辑
摘要: 查看spark版本 spark-submit --version 查看hadoop版本 Hadoop version 下载spark 对应版本 spark-2.0.2 下载idea的scala插件https://plugins.jetbrains.com/plugin/1347-scala 打包并启 阅读全文
posted @ 2017-05-09 17:01 energy1989 阅读(64) 评论(0) 推荐(0) 编辑
摘要: 1,安装NERDTree插件 先下载,官网:http://www.vim.org/scripts/script.php?script_id=1658 解压缩之后,把 plugin/NERD_tree.vim 和doc/NERD_tree.txt分别拷贝到~/.vim/plugin 和 ~/.vim/ 阅读全文
posted @ 2017-04-27 23:43 energy1989 阅读(51) 评论(0) 推荐(0) 编辑
摘要: 在windows命令行窗口下执行: C:\>netstat -aon|findstr "4444" TCP 127.0.0.1:4444 0.0.0.0:0 LISTENING 2434 由上面得知,端口被进程号为2434的进程占用,继续执行下面命令: C:\>tasklist|findstr "2 阅读全文
posted @ 2017-04-16 17:47 energy1989 阅读(51) 评论(-1) 推荐(0) 编辑
摘要: 尽量不要模拟浏览器去爬取资源,效率低且耗资源, selenium可以用不同的驱动,比如firefox,chrome和你提到的PhantomJS,还支持(模拟?)safari、安卓的浏览器等。 举例:例如在百度中搜索成语词典,显示如下,需要爬取所有的成语词汇。我们可以点击下一页查看,有经验的同学一眼就 阅读全文
posted @ 2017-03-02 13:50 energy1989 阅读(220) 评论(0) 推荐(0) 编辑
摘要: import java.util.LinkedList; import java.util.List; /** * * @author energy1010 * * @param */ public class DisjointSet { public List > setList; public int size; public static class Head... 阅读全文
posted @ 2017-02-24 15:06 energy1989 阅读(169) 评论(0) 推荐(0) 编辑
摘要: 数据准备 到http://fimi.ua.ac.be/data/下载一个购物篮数据retail.dat。 数据格式如下: 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 阅读全文
posted @ 2017-02-17 10:54 energy1989 阅读(129) 评论(0) 推荐(0) 编辑
摘要: %生成随机矩阵并标准正交化 a= randn(3)orth(a) %随机投影进行降维 c=magic(3)d=c*b %验证距离 sim=squareform(pdist(d,'euclidean'))sim=squareform(pdist(c,'euclidean'))sim=squarefor 阅读全文
posted @ 2017-02-16 20:08 energy1989 阅读(874) 评论(0) 推荐(0) 编辑