JueFan_C - 博客园

自然语言处理（NLP）常用开源工具总结（转）

摘要： ..................................内容纯转发+收藏................................... 学习自然语言这一段时间以来接触和听说了好多开源的自然语言处理工具，在这里做一下汇总方便自己以后学习，其中有自己使用过的也有了解不是很多的，对于不甚了解的工具以后学习熟悉了会做更新的。1.IKAnalyzerIK Analyzer是一个开源的，基于Java语言开发的轻量级的中文分词工具包。从2006.12推出1.0版本开始，IK Analyzer已经推出了多个版本，当前最新版本为2012 u6，最初基于Luence，从3.0开始成为面向J.. 阅读全文

posted @ 2014-02-07 10:51 JueFan_C 阅读(2507) 评论(0) 推荐(0) 编辑

布隆过滤器的改进及其应用实践

摘要：传统的布隆过滤器只有一个位数组，且用到多种不同类型的哈希函数，在运行时间上多哈希函数对字符串的数值转换用时较长。本文提出一种新的思路，只需要一个哈希函数即可完成与传统布隆过滤器相同的工作，且时间消耗比传统的算法更低。阅读全文

posted @ 2014-01-27 14:36 JueFan_C 阅读(4171) 评论(5) 推荐(1) 编辑

使用LFM（Latent factor model）隐语义模型进行Top-N推荐

摘要：最近在拜读项亮博士的《推荐系统实践》，系统的学习一下推荐系统的相关知识。今天学习了其中的隐语义模型在Top-N推荐中的应用，在此做一个总结。隐语义模型LFM和LSI，LDA，Topic Model其实都属于隐含语义分析技术，是一类概念，他们在本质上是相通的，都是找出潜在的主题或分类。这些技术一开始都... 阅读全文

posted @ 2013-12-05 16:21 JueFan_C 阅读(1642) 评论(1) 推荐(1) 编辑

数据挖掘算法面试题

摘要：昨天去某厂面试数据挖掘，遇到了这么一道题一个二维矩阵，右边的数值比左边的大，下边的数值比上边的大，设计一种算法，快速查找某个指定数字的位置如下表所示的数据：查找值：117——>右边的比左边的大下边的比上边大0815192429364347501822273241475154647135394959667580828693485666707983951011061137383889410010611512313013684919910911712713013414314610511111412012813414315215515812512913613914715216016817117 阅读全文

posted @ 2013-11-21 21:10 JueFan_C 阅读(1668) 评论(2) 推荐(0) 编辑

Hive中Bucket的应用

摘要：网友南京-李先森给了他收集的一些资料，如下： Buckets 对指定列计算 hash，根据 hash 值切分数据，目的是为了并行，每一个 Bucket 对应一个文件。如将 user 列分散至 32 个 bucket，首先对 user 列的值计算 hash，对应 hash 值为 0 的 HDFS 目录为：/ warehouse /xiaojun/dt =20100801/ctry=US/part-00000；hash 值为 20 的 HDFS 目录为：/ warehouse /xiaojun/dt =20100801/ctry=US/part-00020 这段描述是说用了bucket之后... 阅读全文

posted @ 2013-11-08 16:09 JueFan_C 阅读(2978) 评论(0) 推荐(0) 编辑

个人计算机安装hadoop全分布

摘要：一、工具说明设备：实体主机一台校园网络虚拟设备：VMware下安装的ubuntu12.04版本三台，分别是master,slave1,slave2二、ubuntu安装篇前提知识：在windows平台用SecureCRT连接虚拟机机器的时候，必须是同一网关下，虚拟机选择NAT网络模式的话生成的ip是192.168.138.XXX形式，与要求不符，最终要修改为桥接形式，不过桥接形式下不能上网，所以安装完系统后先用NAT模式把要下载的东西下载好再改为桥接 Ubuntu安装完成后，root是没有设置密码的，需要先为root设置密码，执行juefan:~$ sudo passwd[su... 阅读全文

posted @ 2013-10-25 09:27 JueFan_C 阅读(442) 评论(0) 推荐(0) 编辑

Word2Vec在中文的应用

摘要： google最近新开放出word2vec项目，该项目使用deep-learning技术将term表示为向量，由此计算term之间的相似度，对term聚类等，该项目也支持phrase的自动识别，以及与term等同的计算。 word2vec（word to vector）顾名思义，这是一个将单词转换成向阅读全文

posted @ 2013-10-24 22:57 JueFan_C 阅读(8375) 评论(4) 推荐(0) 编辑

统计学习方法（一）——统计学习方法概论

摘要：一、统计学习1、实现的步骤1) 得到一个有限的训练数据集合2) 确定可能的假设学习空间，即学习模型的集合（例如决策树之类）3) 确定模型选择的准则，即学习的策略4) 实现求解最优模型的算法，即学习的算法5) 通过学习算法选择最优模型6) 利用最终模型进行预测与分析2、应用领域人工智能、模型识别、... 阅读全文

posted @ 2013-08-04 15:29 JueFan_C 阅读(836) 评论(0) 推荐(0) 编辑

Linux脚本学习随记

摘要：把文件件的归属转移到其他用户上chown [-R] 账号名称:用户组名称文件或目录在进行hadoop分布式部署的时候,需要生成密钥对具体的操作如下先在master的hadoop目录下创建.sshmkdir .ssh然后生成密钥对ssh-keygen -t rsa然后进行copy操作,即把生成的密钥对发送到slaves节点上但是hadoop的权限限制可能导致不成功这时候需要对hadoop的权限进行修改用root编辑/etc/sudoers文件，找到这一行："root ALL=(ALL) ALL"在起下面添加"hadoop ALL=(ALL) ALL"( 阅读全文

posted @ 2013-07-17 11:36 JueFan_C 阅读(233) 评论(0) 推荐(0) 编辑

Hive查询结果批量插入分区

摘要：在hive的数据建表时，为了查询的高效性，我们经常会对表建立分区，例如下面的表create external table dm_fan_photo_icf_basic(user string, item string, hot int) PARTITIONED BY (day string)ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'stored as textfilelocation '/user/hive/fan/photo/icf/basic/';这是一个外部表，以(day)作为分区，在一般情况下，要插入新的阅读全文

posted @ 2013-07-04 14:11 JueFan_C 阅读(11100) 评论(1) 推荐(1) 编辑

陈饭饭