2013年9月5日

Linux下查看文件和文件夹大小的df和du命令

摘要：转自：http://www.yayu.org/look.php?id=162 当磁盘大小超过标准时会有报警提示，这时如果掌握df和du命令是非常明智的选择。 df可以查看一级文件夹大小、使用比例、档案系统及其挂入点，但对文件却无能为力。 du可以查看文件及文件夹的大小。两者配合使用，非常有效。比如用df查看哪个一级目录过大，然后用df查看文件夹或文件的大小，如此便可迅速确定症结。下面分别简要介绍 df命令可以显示目前所有文件系统的可用空间及使用情形，请看下列这个例子：以下是代码片段：[yayug@yayu ~]$ df -hFilesystem Size Used Avail Use% . 阅读全文

posted @ 2013-09-05 21:08 kalor 阅读(254) 评论(0) 推荐(0) 编辑

linux 的 scp 命令可以在 linux 之间复制文件和目录

摘要：转自：http://blog.csdn.net/snlying/article/details/6184102Linux系统中scp命令的用法. scp就是secure copy的简写，用于在linux下进行远程拷贝文件的命令,和它类似的命令有cp,不过cp只是在本机进行拷贝不能跨服务器. 有时我们需要获得远程服务器上的某个文件，该服务器既没有配置ftp服务器，也没有做共享，无法通过常规途径获得文件时，只需要通过简单的scp命令便可达到目的。一、将本机文件复制到远程服务器上 #scp /home/administrator/news.txt root@192.168.6.129:/etc/s 阅读全文

posted @ 2013-09-05 20:58 kalor 阅读(634) 评论(0) 推荐(0) 编辑

Notes on Probabilistic Latent Semantic Analysis (PLSA)

摘要：转自：http://www.hongliangjie.com/2010/01/04/notes-on-probabilistic-latent-semantic-analysis-plsa/I highly recommend you read the more detailed version ofhttp://arxiv.org/abs/1212.3900Formulation of PLSAThere are two ways to formulate PLSA. They are equivalent but may lead to different inference proces 阅读全文

posted @ 2013-09-05 15:58 kalor 阅读(303) 评论(0) 推荐(0) 编辑

PLSA中的EM算法

摘要：转自：http://www.cnblogs.com/rocketfan/archive/2011/07/03/2096953.html主要记录下几个文章博客内容A Note on EM Algorithm for Probabilistic Latent SemanticAnalysis（翟成祥的NOTE）A Note on EM Algorithm and PLSA（一个中文比较好的总结 by Xinyan Lu）注意这两个是一个思路Probabilistic Latent Semantic Analysis （原论文）原论文是另一个思路Notes on Probabilistic Late 阅读全文

posted @ 2013-09-05 12:11 kalor 阅读(321) 评论(0) 推荐(0) 编辑

LDA（Latent Dirichlet Allocation）

摘要：转自：http://leyew.blog.51cto.com/5043877/860255#559183-tsina-1-46862-ed0973a0c870156ed15f06a6573c8bf0LDA（Latent Dirichlet Allocation）学习笔记最近在看LDA算法，经过了几天挣扎，总算大致了解了这个算法的整体框架和流程。示例LDA要干的事情简单来说就是为一堆文档进行聚类（所以是非监督学习），一种topic就是一类，要聚成的topic数目是事先指定的。聚类的结果是一个概率，而不是布尔型的100%属于某个类。国外有个博客[1]上有一个清晰的例子，直接引用：Suppose y 阅读全文

posted @ 2013-09-05 12:07 kalor 阅读(1370) 评论(0) 推荐(0) 编辑

搜索背后的奥秘——浅谈语义主题计算

摘要：转自：http://stblog.baidu-tech.com/?p=1190（百度搜索研发部）摘要：两篇文档是否相关往往不只决定于字面上的词语重复，还取决于文字背后的语义关联。对语义关联的挖掘，可以让我们的搜索更加智能化。本文着重介绍了一个语义挖掘的利器：主题模型。主题模型是对文字隐含主题进行建模的方法。它克服了传统信息检索中文档相似度计算方法的缺点，并且能够在海量互联网数据中自动寻找出文字间的语义主题。近些年来各大互联网公司都开始了这方面的探索和尝试。就让我们看一下究竟吧。关键词：主题模型技术领域：搜索技术、自然语言处理假设有两个句子，我们想知道它们之间是否相关联：第一个是：“乔布斯离我们阅读全文

posted @ 2013-09-05 12:05 kalor 阅读(294) 评论(0) 推荐(0) 编辑

导航

2013年9月5日