随笔分类 -  众推

摘要:伪分布式hadoop的三种安装方式:Local (Standalone) ModePseudo-Distributed ModeFully-Distributed Mode安装之前需要$ sudo apt-get install ssh $ sudo apt-get install rsync详见... 阅读全文
posted @ 2015-06-28 21:31 skyme 阅读(17962) 评论(1) 推荐(3) 编辑
摘要:openKM想问下有没有这样的开源文件管理系统,所有人都可以上传文件,只有有权限的管理员才可以下载他人的文件?不知道openkm能不能做到。OpenKM是一个开放源代码的电子文档管理系统,它的特点是可用于大型公司或是中小企业, 适应性比较强。 并且在知识管理方面的加工,提供了更加灵活和成本较低的替代... 阅读全文
posted @ 2015-04-30 13:22 skyme 阅读(3255) 评论(0) 推荐(0) 编辑
摘要:分类分布式网络爬虫包含多个爬虫,每个爬虫需要完成的任务和单个的爬行器类似,它们从互联网上下载网页,并把网页保存在本地的磁盘,从中抽取URL并沿着这些URL的指向继续爬行。由于并行爬行器需要分割下载任务,可能爬虫会将自己抽取的URL发送给其他爬虫。这些爬虫可能分布在同一个局域网之中,或者分散在不同的地... 阅读全文
posted @ 2015-04-20 10:35 skyme 阅读(29277) 评论(5) 推荐(8) 编辑
摘要:C4.5简介C4.5是一系列用在机器学习和数据挖掘的分类问题中的算法。它的目标是监督学习:给定一个数据集,其中的每一个元组都能用一组属性值来描述,每一个元组属于一个互斥的类别中的某一类。C4.5的目标是通过学习,找到一个从属性值到类别的映射关系,并且这个映射能用于对新的类别未知的实体进行分类。由于I... 阅读全文
posted @ 2015-03-31 16:22 skyme 阅读(2294) 评论(1) 推荐(0) 编辑
摘要:讨论内容昨天的架构基本确定成如下图所示:针对此架构,大家分别提了不同的看法:【大侠】秦刘 9:53:58 工作节点的爬虫 应该就是普通的一个cmd形式的小程序,对不对? 【大侠】秦刘 9:54:38 webapp的作用应该只是这个 【大侠】大常 9:55:11 这个是什么的... 阅读全文
posted @ 2015-03-27 14:35 skyme 阅读(2198) 评论(0) 推荐(0) 编辑
摘要:SpidermanSpiderman 是一个Java开源Web数据抽取工具。它能够收集指定的Web页面并从这些页面中提取有用的数据。 Spiderman主要是运用了像XPath、正则、表达式引擎等这些技术来实现数据抽取。项目结构:依赖关系如下:webmagicwebmagic采用完全模块化的设计,功... 阅读全文
posted @ 2015-03-26 19:13 skyme 阅读(15860) 评论(1) 推荐(4) 编辑
摘要:文档分享流程今天在群里与大家讨论,想一个比较合理的分享流程。我想看到流程应该是挺清楚了,就不再多加文字方面的解释了!有想参与的可以一起进来讨论群号 194338168 想深度参与的加,不想参与的就别往里进了,现在需要的主要是开发和文档两类人。群会定期往出清人! (项目会开源出来) 阅读全文
posted @ 2015-03-25 17:51 skyme 阅读(1275) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示