摘要: 本列表总结了25个Java机器学习工具&库: 1. Weka集成了数据挖掘工作的机器学习算法。这些算法可以直接应用于一个数据集上或者你可以自己编写代码来调用。Weka包括一系列的工具,如数据预处理、分类、回归、聚类、关联规则以及可视化。 2.Massive Online Analysis(MOA)是 阅读全文
posted @ 2016-04-22 08:28 胡立峰 阅读(4746) 评论(0) 推荐(2) 编辑
摘要: 在机器学习中,通常我们感兴趣的是在给定训练数据 D 时,确定假设空间 H 中的最佳假设。 所谓最佳假设,一种办法是把它定义为在给定数据 D 以及 H 中不同假设的先验概率的有关知识条件下的最可能(most probable)假设。 贝叶斯理论提供了计算这种可能性的一种直接的方法。更精确地讲,贝叶斯法 阅读全文
posted @ 2016-04-21 09:01 胡立峰 阅读(1098) 评论(0) 推荐(1) 编辑
摘要: 从JDK5开始,Java增加了Annotation(注解),Annotation是代码里的特殊标记,这些标记可以在编译、类加载、运行时被读取,并执行相应的处理。通过使用Annotation,开发人员可以在不改变原有逻辑的情况下,在源文件中嵌入一些补充的信息。代码分析工具、开发工具和部署工具可以通过这 阅读全文
posted @ 2016-04-13 08:46 胡立峰 阅读(1478) 评论(0) 推荐(0) 编辑
摘要: 有时候,我们想要隐藏真正的路径,或者觉着很酷,举一个知乎网的例子,如https://www.zhihu.com/question/39547745 那么?如何做到呢,其实,可以有一个非常简单而有效的解决方案,即是利用最为基础的Servlet即可: 首先,在WEB.XML里配置 <servlet> < 阅读全文
posted @ 2016-03-29 19:36 胡立峰 阅读(3423) 评论(0) 推荐(0) 编辑
摘要: 情感倾向可认为是主体对某一客体主观存在的内心喜恶,内在评价的一种倾向。它由两个方面来衡量:一个情感倾向方向,一个是情感倾向度。 情感倾向方向也称为情感极性。在微博中,可以理解为用户对某客体表达自身观点所持的态度是支持、反对、中立,即通常所指的正面情感、负面情感、中性情感。例如“赞美”与“表扬”同为褒 阅读全文
posted @ 2016-03-23 11:03 胡立峰 阅读(6069) 评论(3) 推荐(0) 编辑
摘要: 随着互联网节奏越来越快,传统的需求文档已经比较难适应市场的脚步,特别对于要求敏捷的团队来说,冗余而细致入微的需求文档已经成为包袱(这么长个文档领导也不会看呀)。目前大多数团队更喜爱直接使用原型来代替需求文档,然而所谓的原型可不只是画画线框图哟。 首页,原型的使用者包括产品、UI、研发、测试等(商务呀 阅读全文
posted @ 2016-03-16 09:06 胡立峰 阅读(821) 评论(0) 推荐(0) 编辑
摘要: 文本分析、情感分析和社交分析帮助你在一定规模上转化成客户、病人、公众以及市场的“声音”。这项技术目前大量地应用于一系列的工业产品中,从医疗健康到金融、媒体、甚至客户市场。它们从线上、社交网络、企业数据源中提取商业洞察力。 它从文本中、音频中、图像中还有网络连接中提取洞察力,它可真是个有用的东西! 目 阅读全文
posted @ 2016-03-10 11:27 胡立峰 阅读(817) 评论(0) 推荐(0) 编辑
摘要: 从报错看,这主要是应为64位-32位不兼容导致的。好在,在报此错的情况下,tomcat还是跑起来了。 具体来说,从网上搜索的一些资料来看,应该是jdk版本与tomcat不一致 。tomcat我的是64位的, 但是用java -version查看了一下java(如果是64位,会有64-bit显示),安 阅读全文
posted @ 2016-03-09 09:04 胡立峰 阅读(972) 评论(0) 推荐(0) 编辑
摘要: 一、 大数据基本概念 大数据Big Data是指大小超出了常用的软件工具在运行时间内可以承受的收集,管理和处理数据能力的数据集;大数据是目前存储模式与能力、计算模式与能力不能满足存储与处理现有数据集规模产生的相对概念。 大数据的预处理 主要完成对已接收数据的辨析、抽取、清洗等操作。 (1)抽取:因获 阅读全文
posted @ 2016-03-02 15:54 胡立峰 阅读(9839) 评论(0) 推荐(0) 编辑
摘要: 1、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用h 阅读全文
posted @ 2016-02-22 08:44 胡立峰 阅读(482) 评论(0) 推荐(0) 编辑