kalor - 博客园

摘要： http://cdmd.cnki.com.cn/Article/CDMD-10013-1012333416.htm 阅读全文

posted @ 2013-09-28 11:33 kalor 阅读(229) 评论(0) 推荐(0) 编辑

摘要： TF-IDF（Term Frequency–Inverse Document Frequency）是一种用于资讯检索与文本挖掘的常用加权技术。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外，互联网上的搜寻引擎还会使用基于连结分析的评级方法，以确定文件在搜寻结果中出现的顺序。TFIDF的主要思想是：如果某个词或短语在一篇文章中出现的频率TF高阅读全文

posted @ 2013-09-28 11:25 kalor 阅读(20971) 评论(0) 推荐(3) 编辑

基于TF/IDF的聚类算法原理

摘要：一.TF/IDF描述单个term与特定document的相关性TF(TermFrequency): 表示一个term与某个document的相关性。公式为这个term在document中出现的次数除以该document中所有term出现的总次数.IDF（Inverse DocumentFrequency）表示一个term表示document的主题的权重大小。主要是通过包含了该term的docuement的数量和docuementset的总数量来比较的。出现的次数越多，权重越小。公式是log(D/Dt)D是docuemnt set的总数量， Dt是包含了该term的document的总数。这样，阅读全文

posted @ 2013-09-27 21:55 kalor 阅读(1665) 评论(0) 推荐(0) 编辑

微博用户标签自动生成算法

摘要：转自：http://www.itongji.cn/article/04031ZR013.html1.问题描述现有每个用户发送、评论、转发的微博内容，要求从这些微博中为每个用户抽取适合的标签。例如我的微博中经常提到“SVM”，“文本分类”，“协同过滤”等，则给我打上标签“数据挖掘”。要求算法尽量自动化，不需要或需要很少人工干预。2.解决方案有三种计算方法可尝试，个人由于工作原因暂时不能一一实现，有兴趣的读者可进行实现比较2.1借助百度百科的开放分类百度百科有个比较好的特性是在词条释义下面会列出该词条隶属的开放分类，如词条“SVM”隶属的开放分类有数据挖掘，机器学习等。可以利用这个特性，为用户阅读全文

posted @ 2013-09-17 16:45 kalor 阅读(1699) 评论(0) 推荐(0) 编辑

基于LDA对关注的微博用户进行聚类

摘要：转自：http://www.datalab.sinaapp.com/?p=237 最近看了LDA以及文本聚类的一些方法，写在这里算是读书笔记。文章最后进行了一个小实验，通过爬取本人在微博上关注的人的微博，利用微博的内容，尝试将我关注的人按主题进行进行聚类。文本聚类就是把一个文本集分成一定数量的簇(Cluster)，使每个簇内的文本之间具有较大的相似性，而使簇间的文本具有较大的差异性。传统的文本聚类方法一般基于向量空间模型(vector space model): 在对文本集中的每个文本进行预处理(分词、停用词过滤等)、特征选择和权重计算之后，将文档集表示成一个高纬、稀疏的文档-词矩阵，进而使阅读全文

posted @ 2013-09-13 15:55 kalor 阅读(2251) 评论(1) 推荐(0) 编辑

LDA-math-LDA 文本建模

摘要：转自：http://cos.name/2013/03/lda-math-lda-text-modeling/5. LDA 文本建模5.1 游戏规则对于上述的 PLSA 模型，贝叶斯学派显然是有意见的，doc-topic 骰子θ→m和 topic-word 骰子φ→k都是模型中的参数，参数都是随机变量，怎么能没有先验分布呢？于是，类似于对 Unigram Model 的贝叶斯改造，我们也可以如下在两个骰子参数前加上先验分布从而把 PLSA 对应的游戏过程改造为一个贝叶斯的游戏过程。由于 φ→k和θ→m都对应到多项分布，所以先验分布的一个好的选择就是Drichlet 分布，于是我们就得到了 LD 阅读全文

posted @ 2013-09-11 21:32 kalor 阅读(533) 评论(0) 推荐(0) 编辑

Linux下Hadoop集群环境的安装配置

摘要： 1）安装Ubuntu或其他Linux系统： a)为减少错误，集群中的主机最好安装同一版本的Linux系统，我的是Ubuntu12.04。 b)每个主机的登陆用户名也最好都一样，比如都是hadoop，不然到最后启动hadoop时会出现不管你密码是否输入正确，都会提示权限不够的错误，如果你之前装系统时没注意到这个问题，可以之后在每个主机上都新建一个用户hadoop来实现，命令如下：增加hadoop用户：sudo adduser hadoop 把新加的hadoop用户，添加到admin组中，让其有sudo权限：sudo usermod -aG adm,sudo hadoop 切换到hado... 阅读全文

posted @ 2013-09-07 12:43 kalor 阅读(342) 评论(0) 推荐(0) 编辑

Linux下修改hostname

摘要：我维护两三个机房的数十台机器，开发用机器，运营用机器，自己工作机器也是ubuntu，有时开很多ssh，干的还是同样的事情，很容易搞混。所以需要一目了然的知道某台机器的情况，避免犯晕。这就需要修改主机名。缺省安装系统的主机名都是Localhost，无法区分。1.临时修改主机名显示主机名：zhouhh@zzhh64:~$ hostnamezhh64修改主机名：zhouhh@zzhh64:~$ sudo hostname zzofszhouhh@zzhh64:~$ hostnamezzofs看一下$PS1zhouhh@zzhh64:~$ echo $PS1/[/e]0;/u@/h: /w/a/]${ 阅读全文

posted @ 2013-09-07 10:28 kalor 阅读(513) 评论(0) 推荐(0) 编辑

[添加用户]解决useradd 用户后没有添加用户Home目录的情况,Linux改变文件或目录的访问权限命令,linux修改用户密码

摘要：将nobody用户添加到nogroup 组：usermod -g nogroup nobodycat /etc/passwd|grep nobodynobody:x:65534:65534:nobody:/var/lib/nobody:/bin/bash第3个字段是65534:意思就是,UID(用户的ID)是500.第4个字段是65534:意思就是.GID(用户的组ID)的500.使用usermod -g nogroup nobody就可以把已有的用户nobody加入nogroup 组了.如下：:nobody:/var/lib/nobody:/bin/bash添加一个不能ssh登录的用户和制定阅读全文

posted @ 2013-09-06 21:33 kalor 阅读(2977) 评论(0) 推荐(0) 编辑

user is not in the sudoers file.This incident will be reported

摘要：我用普通用户ssk登陆，想让ssk成为拥有超级用户的权限的普通用户开始提示输入密码错误，然后就这样了解决方法如下： 1>、进入超级用户模式。也就是输入"su -",系统会让你输入超级用户密码，输入密码后就进入了超级用户模式。 2>、添加文件的写权限。也就是输入命令"chmod u+w /etc/sudoers"。 3>、编辑/etc/sudoers文件。也就是输入命令"vim /etc/sudoers",输入"i"进入编辑模式，找到这一行："root ALL=(ALL) ALL&qu 阅读全文

posted @ 2013-09-06 21:31 kalor 阅读(340) 评论(0) 推荐(0) 编辑

导航

2013年9月28日

2013年9月27日

2013年9月17日

2013年9月13日

2013年9月11日

2013年9月7日

2013年9月6日