摘要:
机器学习顶级会议:NIPS, ICML, UAI, AISTATS;(期刊:JMLR, ML, Trends in ML, IEEE T-NN)计算机视觉和图像识别:ICCV, CVPR, ECCV;(期刊:IEEE T-PAMI, IJCV, IEEE T-IP)人工智能:IJCAI, AAAI;... 阅读全文
摘要:
原文地址http://jncumter.blog.51cto.com/812546/243961图像去噪是数字图像处理中的重要环节和步骤。去噪效果的好坏直接影响到后续的图像处理工作如图像分割、边缘检测等。图像信号在产生、传输过程中都可能会受到噪声的污染,一般数字图像系统中的常见噪声主要有:高斯噪声(主要由阻性元器件内部产生)、椒盐噪声(主要是图像切割引起的黑图像上的白点噪声或光电转换过程中产生的泊松噪声)等;目前比较经典的图像去噪算法主要有以下三种:均值滤波算法:也称线性滤波,主要思想为邻域平均法,即用几个像素灰度的平均值来代替每个像素的灰度。有效抑制加性噪声,但容易引起图像模糊,可以对其进行 阅读全文
摘要:
cat ./daily_uv/daily_uv_20140104 | awk '{fr[$1]+=$3; k=$1 "_" $2; av[k]+=$3;} END{for (k in fr) {print k,fr[k]} for (k in av) {print k,av[k]}}'1. 最基本的用法awk '{print $1}' ./daily_messageEnter_uv/daily_messageEnter_uv_20131226即 awk '{*****}' filename2. awk的格式化输出,和C语言的p 阅读全文
摘要:
screen可以将任务挂起,即将任务放在后台,一般5个任务左右。1、新建screen会话:直接输入screen命令或者screen -S [会话名称]2、退出会话:按下组合键Ctrl+a并松开,此时screen窗口等待命令,然后按下d并松开,退出screen窗口。3、查看当前系统所有screen会话:screen -ls4、进入某个screen会话:screen -r [会话的PID]5、在进入某个screen会话后,杀死screen会话:按下组合键Ctrl+a并松开,此时screen窗口等待命令,然后按下大写的K(即组合键:Shift+k)并松开,(系统提示是否要杀死)按下y确认杀死scre 阅读全文
摘要:
转自http://www.alidata.org/archives/581Hive 的官方文档中对查询语言有了很详细的描述,请参考:http://wiki.apache.org/hadoop/Hive/LanguageManual ,本文的内容大部分翻译自该页面,期间加入了一些在使用过程中需要注意到的事项。Create TableCREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment] [PARTITIO 阅读全文
摘要:
转自http://www.alidata.org/archives/622使用Hive可以高效而又快速地编写复杂的MapReduce查询逻辑。但是某些情况下,因为不熟悉数据特性,或没有遵循Hive的优化约定,Hive计算任务会变得非常低效,甚至无法得到结果。一个”好”的Hive程序仍然需要对Hive运行机制有深入的了解。有一些大家比较熟悉的优化约定包括:Join中需要将大表写在靠右的位置;尽量使用UDF而不是transfrom……诸如此类。下面讨论5个性能和逻辑相关的问题,帮助你写出更好的Hive程序。全排序Hive的排序关键字是SORT BY,它有意区别于传统数据库的ORDER BY也是为了 阅读全文
摘要:
1。文献数据库 国内主要资源 1.维普 该数据库收录8000余种社科类及自然科学类期刊的题录、文摘及全文。主题范畴为社科类、自然科学类、综合类。年代跨度为1989年至今 2.万方 万方数据资源系统的数据库有百余个,应用最多的主要是包括了专业文献库、中国科技引文库、中国学位论文库、中国期刊会议论文库等。 3.cnki 主要应用包括中国期刊全文数据库、中国优秀博士硕士论文全文数据库、中国重要报纸全文数据库、中国医院知识仓库、中国重要会议论文全文数据库。 4.超星图书馆、书生之家图书馆、中国数字图书馆 国内主要汇集各类图书资源的数据库国外主要资源 1.SpringerLink 包含... 阅读全文
摘要:
一找照妖镜一名研发人员告诉成都全搜索新闻网记者:“微博粉丝接口只允许第三方应用获取5000个粉丝,而非全部粉丝。于是我们另辟蹊径,选择通过各个账户的关注列表而非粉丝列表挖掘到了几乎所有微博账号信息,并建立了一个数据库。同时,我们通过微博数量、粉丝数量、关注数量、微博互动数量、微博发送终端和发送时间是否固定、微博广告比例及@用户数量等十几项指标形成了一个僵尸粉评定系统。通过这套系统我们建立了一个僵尸微博账号数据库。只要用户在一找照妖镜上键入微博账号,我们就可以将其和我们的僵尸微博账号数据库进行比对,迅速生成其真粉率。 阅读全文
摘要:
[说明:Pregel这篇是发表在2010年的SIGMOD上,Pregel这个名称是为了纪念欧拉,在他提出的格尼斯堡七桥问题中,那些桥所在的河就叫Pregel。最初是为了解决PageRank计算问题,由于MapReduce并不适于这种场景,所以需要发展新的计算模型去完成这项计算任务,在这个过程中逐步提炼出一个通用的图计算框架,并用来解决更多的问题。核心思想源自BSP模型,这个就更早了,是在上世纪80年代由Leslie Valiant(2010年图灵奖得主)提出,之后在1990的Communications of the ACM 上,正式发表了题为A bridging model for para 阅读全文
摘要:
随机漫步理论随机漫步理论(Random Walk Theory)——反技术图表派的基础[编辑]随机漫步理论简介 随机漫步理论(Random Walk Theory)认为,证券价格的波动是随机的,像一个在广场上行走的人一样,价格的下一步将走向哪里,是没有规律的。证券市场中,价格的走向受到多方面因素的影响。一件不起眼的小事也可能对市场产生巨大的影响。从长时间的价格走势图上也可以看出,价格的上下起伏的机会差不多是均等的。 随机漫步理论指出,股票市场内有成千上万的精明人士,每一个人都懂得分析,而且资料流入市场都是公开的,所有人都可以知道,并无什么秘密可言。因此,股票现在的价格就已经反映了供求关系,.. 阅读全文