2013年9月5日

Linux下查看文件和文件夹大小的df和du命令

摘要：转自：http://www.yayu.org/look.php?id=162 当磁盘大小超过标准时会有报警提示，这时如果掌握df和du命令是非常明智的选择。 df可以查看一级文件夹大小、使用比例、档案系统及其挂入点，但对文件却无能为力。 du可以查看文件及文件夹的大小。两者配合使用，非常有效。比如用df查看哪个一级目录过大，然后用df查看文件夹或文件的大小，如此便可迅速确定症结。下面分别简要介绍 df命令可以显示目前所有文件系统的可用空间及使用情形，请看下列这个例子：以下是代码片段：[yayug@yayu ~]$ df -hFilesystem Size Used Avail Use% . 阅读全文

posted @ 2013-09-05 21:08 kalor 阅读(254) 评论(0) 推荐(0) 编辑

linux 的 scp 命令可以在 linux 之间复制文件和目录

摘要：转自：http://blog.csdn.net/snlying/article/details/6184102Linux系统中scp命令的用法. scp就是secure copy的简写，用于在linux下进行远程拷贝文件的命令,和它类似的命令有cp,不过cp只是在本机进行拷贝不能跨服务器. 有时我们需要获得远程服务器上的某个文件，该服务器既没有配置ftp服务器，也没有做共享，无法通过常规途径获得文件时，只需要通过简单的scp命令便可达到目的。一、将本机文件复制到远程服务器上 #scp /home/administrator/news.txt root@192.168.6.129:/etc/s 阅读全文

posted @ 2013-09-05 20:58 kalor 阅读(633) 评论(0) 推荐(0) 编辑

Notes on Probabilistic Latent Semantic Analysis (PLSA)

摘要：转自：http://www.hongliangjie.com/2010/01/04/notes-on-probabilistic-latent-semantic-analysis-plsa/I highly recommend you read the more detailed version ofhttp://arxiv.org/abs/1212.3900Formulation of PLSAThere are two ways to formulate PLSA. They are equivalent but may lead to different inference proces 阅读全文

posted @ 2013-09-05 15:58 kalor 阅读(303) 评论(0) 推荐(0) 编辑

PLSA中的EM算法

摘要：转自：http://www.cnblogs.com/rocketfan/archive/2011/07/03/2096953.html主要记录下几个文章博客内容A Note on EM Algorithm for Probabilistic Latent SemanticAnalysis（翟成祥的NOTE）A Note on EM Algorithm and PLSA（一个中文比较好的总结 by Xinyan Lu）注意这两个是一个思路Probabilistic Latent Semantic Analysis （原论文）原论文是另一个思路Notes on Probabilistic Late 阅读全文

posted @ 2013-09-05 12:11 kalor 阅读(321) 评论(0) 推荐(0) 编辑

LDA（Latent Dirichlet Allocation）

摘要：转自：http://leyew.blog.51cto.com/5043877/860255#559183-tsina-1-46862-ed0973a0c870156ed15f06a6573c8bf0LDA（Latent Dirichlet Allocation）学习笔记最近在看LDA算法，经过了几天挣扎，总算大致了解了这个算法的整体框架和流程。示例LDA要干的事情简单来说就是为一堆文档进行聚类（所以是非监督学习），一种topic就是一类，要聚成的topic数目是事先指定的。聚类的结果是一个概率，而不是布尔型的100%属于某个类。国外有个博客[1]上有一个清晰的例子，直接引用：Suppose y 阅读全文

posted @ 2013-09-05 12:07 kalor 阅读(1370) 评论(0) 推荐(0) 编辑

搜索背后的奥秘——浅谈语义主题计算

摘要：转自：http://stblog.baidu-tech.com/?p=1190（百度搜索研发部）摘要：两篇文档是否相关往往不只决定于字面上的词语重复，还取决于文字背后的语义关联。对语义关联的挖掘，可以让我们的搜索更加智能化。本文着重介绍了一个语义挖掘的利器：主题模型。主题模型是对文字隐含主题进行建模的方法。它克服了传统信息检索中文档相似度计算方法的缺点，并且能够在海量互联网数据中自动寻找出文字间的语义主题。近些年来各大互联网公司都开始了这方面的探索和尝试。就让我们看一下究竟吧。关键词：主题模型技术领域：搜索技术、自然语言处理假设有两个句子，我们想知道它们之间是否相关联：第一个是：“乔布斯离我们阅读全文

posted @ 2013-09-05 12:05 kalor 阅读(294) 评论(0) 推荐(0) 编辑

2013年8月30日

Giraph之SSSP（shortest path）单机伪分布运行成功

摘要：所遇问题：Exception 1： Exception in thread "main" java.lang.IllegalArgumentException: "checkLocalJobRunnerConfiguration: When using"LocalJobRunner, must have only one worker since only 1 task at a time!"Solution： GiraphJob job = new GiraphJob(getConf(), getClass().getName()); job 阅读全文

posted @ 2013-08-30 09:53 kalor 阅读(1429) 评论(1) 推荐(0) 编辑

2013年8月24日

Linux之sed,awk(流编辑器)

摘要： sed: s----substitute(替换) 1. 文本替换（使用-i选项，可以将结果应用于原文件）many people在进行替换之后，借助重定向来保存文件(未使用-i选项)：$ sed 's/text/replace_text/' file > newfile$ mv newfile fil... 阅读全文

posted @ 2013-08-24 17:57 kalor 阅读(405) 评论(0) 推荐(0) 编辑

2013年8月21日

文本处理之正则环视

摘要：环视(Lookaround)1 环视基础环视只进行子表达式的匹配，不占有字符，匹配到的内容不保存到最终的匹配结果，是零宽度的。环视匹配的最终结果就是一个位置。环视的作用相当于对所在位置加了一个附加条件，只有满足这个条件，环视子表达式才能匹配成功。环视按照方向划分有顺序和逆序两种，按照是否匹配有肯定和否定两种，组合起来就有四种环视。顺序环视相当于在当前位置右侧附加一个条件，而逆序环视相当于在当前位置左侧附加一个条件。表达式说明(?onebbtwocc 正则表达式：]+>这个正则的意义就是匹配除或之外的其余标签。匹配过程：首先由字符“]+”；由“[^>]+”从位置15进行尝试匹配，可以阅读全文

posted @ 2013-08-21 21:34 kalor 阅读(188) 评论(0) 推荐(0) 编辑

文本处理之正则表达式基础

摘要：转自：http://www.regexlab.com/zh/regref.htm引言正则表达式（regularexpression）就是用一个“字符串”来描述一个特征，然后去验证另一个“字符串”是否符合这个特征。比如表达式“ab+” 描述的特征是“一个 'a' 和任意个 'b' ”，那么 'ab', 'abb', 'abbbbbbbbbb' 都符合这个特征。正则表达式可以用来：（1）验证字符串是否符合指定特征，比如验证是否是合法的邮件地址。（2）用来查找字符串，从一个长的文本中查找符合指定特征的字符串，比查阅读全文

posted @ 2013-08-21 10:34 kalor 阅读(408) 评论(0) 推荐(0) 编辑

导航

2013年9月5日

2013年8月30日

2013年8月24日

2013年8月21日