kalor

导航

 
上一页 1 ··· 7 8 9 10 11 12 13 14 15 ··· 20 下一页

2013年9月5日

摘要: 转自:http://www.yayu.org/look.php?id=162 当磁盘大小超过标准时会有报警提示,这时如果掌握df和du命令是非常明智的选择。 df可以查看一级文件夹大小、使用比例、档案系统及其挂入点,但对文件却无能为力。 du可以查看文件及文件夹的大小。 两者配合使用,非常有效。比如用df查看哪个一级目录过大,然后用df查看文件夹或文件的大小,如此便可迅速确定症结。 下面分别简要介绍 df命令可以显示目前所有文件系统的可用空间及使用情形,请看下列这个例子:以下是代码片段:[yayug@yayu ~]$ df -hFilesystem Size Used Avail Use% . 阅读全文
posted @ 2013-09-05 21:08 kalor 阅读(232) 评论(0) 推荐(0) 编辑
 
摘要: 转自:http://blog.csdn.net/snlying/article/details/6184102Linux系统中scp命令的用法. scp就是secure copy的简写,用于在linux下进行远程拷贝文件的命令,和它类似的命令有cp,不过cp只是在本机进行拷贝不能跨服务器. 有时我们需要获得远程服务器上的某个文件,该服务器既没有配置ftp服务器,也没有做共享,无法通过常规途径获得文件时,只需要通过简单的scp命令便可达到目的。 一、将本机文件复制到远程服务器上 #scp /home/administrator/news.txt root@192.168.6.129:/etc/s 阅读全文
posted @ 2013-09-05 20:58 kalor 阅读(587) 评论(0) 推荐(0) 编辑
 
摘要: 转自:http://www.hongliangjie.com/2010/01/04/notes-on-probabilistic-latent-semantic-analysis-plsa/I highly recommend you read the more detailed version ofhttp://arxiv.org/abs/1212.3900Formulation of PLSAThere are two ways to formulate PLSA. They are equivalent but may lead to different inference proces 阅读全文
posted @ 2013-09-05 15:58 kalor 阅读(299) 评论(0) 推荐(0) 编辑
 
摘要: 转自:http://www.cnblogs.com/rocketfan/archive/2011/07/03/2096953.html主要记录下几个文章博客内容A Note on EM Algorithm for Probabilistic Latent SemanticAnalysis(翟成祥的NOTE)A Note on EM Algorithm and PLSA(一个中文比较好的总结 by Xinyan Lu)注意这两个是一个思路Probabilistic Latent Semantic Analysis (原论文)原论文是另一个思路Notes on Probabilistic Late 阅读全文
posted @ 2013-09-05 12:11 kalor 阅读(321) 评论(0) 推荐(0) 编辑
 
摘要: 转自:http://leyew.blog.51cto.com/5043877/860255#559183-tsina-1-46862-ed0973a0c870156ed15f06a6573c8bf0LDA(Latent Dirichlet Allocation)学习笔记最近在看LDA算法,经过了几天挣扎,总算大致了解了这个算法的整体框架和流程。示例LDA要干的事情简单来说就是为一堆文档进行聚类(所以是非监督学习),一种topic就是一类,要聚成的topic数目是事先指定的。聚类的结果是一个概率,而不是布尔型的100%属于某个类。国外有个博客[1]上有一个清晰的例子,直接引用:Suppose y 阅读全文
posted @ 2013-09-05 12:07 kalor 阅读(1352) 评论(0) 推荐(0) 编辑
 
摘要: 转自:http://stblog.baidu-tech.com/?p=1190(百度搜索研发部)摘要:两篇文档是否相关往往不只决定于字面上的词语重复,还取决于文字背后的语义关联。对语义关联的挖掘,可以让我们的搜索更加智能化。本文着重介绍了一个语义挖掘的利器:主题模型。主题模型是对文字隐含主题进行建模的方法。它克服了传统信息检索中文档相似度计算方法的缺点,并且能够在海量互联网数据中自动寻找出文字间的语义主题。近些年来各大互联网公司都开始了这方面的探索和尝试。就让我们看一下究竟吧。关键词:主题模型技术领域:搜索技术、自然语言处理假设有两个句子,我们想知道它们之间是否相关联:第一个是:“乔布斯离我们 阅读全文
posted @ 2013-09-05 12:05 kalor 阅读(292) 评论(0) 推荐(0) 编辑
 

2013年8月30日

摘要: 所遇问题:Exception 1: Exception in thread "main" java.lang.IllegalArgumentException: "checkLocalJobRunnerConfiguration: When using"LocalJobRunner, must have only one worker since only 1 task at a time!"Solution: GiraphJob job = new GiraphJob(getConf(), getClass().getName()); job 阅读全文
posted @ 2013-08-30 09:53 kalor 阅读(1413) 评论(1) 推荐(0) 编辑
 

2013年8月24日

摘要: sed: s----substitute(替换) 1. 文本替换(使用-i选项,可以将结果应用于原文件)many people在进行替换之后,借助重定向来保存文件(未使用-i选项):$ sed 's/text/replace_text/' file > newfile$ mv newfile fil... 阅读全文
posted @ 2013-08-24 17:57 kalor 阅读(403) 评论(0) 推荐(0) 编辑
 

2013年8月21日

摘要: 环视(Lookaround)1 环视基础环视只进行子表达式的匹配,不占有字符,匹配到的内容不保存到最终的匹配结果,是零宽度的。环视匹配的最终结果就是一个位置。环视的作用相当于对所在位置加了一个附加条件,只有满足这个条件,环视子表达式才能匹配成功。环视按照方向划分有顺序和逆序两种,按照是否匹配有肯定和否定两种,组合起来就有四种环视。顺序环视相当于在当前位置右侧附加一个条件,而逆序环视相当于在当前位置左侧附加一个条件。表达式说明(?onebbtwocc 正则表达式:]+>这个正则的意义就是匹配除或之外的其余标签。匹配过程:首先由字符“]+”;由“[^>]+”从位置15进行尝试匹配,可以 阅读全文
posted @ 2013-08-21 21:34 kalor 阅读(186) 评论(0) 推荐(0) 编辑
 
摘要: 转自:http://www.regexlab.com/zh/regref.htm引言 正则表达式(regularexpression)就是用一个“字符串”来描述一个特征,然后去验证另一个“字符串”是否符合这个特征。比如 表达式“ab+” 描述的特征是“一个 'a' 和 任意个 'b' ”,那么 'ab', 'abb', 'abbbbbbbbbb' 都符合这个特征。 正则表达式可以用来:(1)验证字符串是否符合指定特征,比如验证是否是合法的邮件地址。(2)用来查找字符串,从一个长的文本中查找符合指定特征的字符串,比查 阅读全文
posted @ 2013-08-21 10:34 kalor 阅读(397) 评论(0) 推荐(0) 编辑
 
上一页 1 ··· 7 8 9 10 11 12 13 14 15 ··· 20 下一页