摘要:
简介 Elasticsearch-SQL是Elasticsearch的一个插件,它可以让我们通过类似SQL的方式对Elasticsearch中的数据进行查询。项目地址是:https://github.com/NLPchina/elasticsearch-sql 安装 不同Elasticsearch版 阅读全文
2017年2月10日
2016年8月25日
摘要:
在使用Mysql的mysqldump命令按时间进行数据导出时,我们可能会遇到导出数据与原库中不符或者导出数据和我们期望的数据不同的情况。 我们知道Mysql数据库导出可以使用命令mysqldump,使用方式可以通过在终端中输入mysqldump --help来查看。简单的使用方式如下: 1. 导出整 阅读全文
2016年8月24日
摘要:
据我们所知,有‘已知的已知’,有些事,我们知道我们知道;我们也知道,有 ‘已知的未知’,也就是说,有些事,我们现在知道我们不知道。但是,同样存在‘不知的不知’——有些事,我们不知道我们不知道。 上一章中分类和回归都属于监督学习。当目标值是未知时,需要使用非监督学习,非监督学习不会学习如何预测目标值。 阅读全文
2016年8月19日
摘要:
预测是非常困难的,更别提预测未来。 4.1 回归简介 随着现代机器学习和数据科学的出现,我们依旧把从“某些值”预测“另外某个值”的思想称为回归。回归是预测一个数值型数量,比如大小、收入和温度,而分类则指预测标号或类别,比如判断邮件是否为“垃圾邮件”,拼图游戏的图案是否为“猫”。 将回归和分类联系在一 阅读全文
2016年8月17日
摘要:
偏好是无法度量的。 相比其他的机器学习算法,推荐引擎的输出更直观,更容易理解。 接下来三章主要讲述Spark中主要的机器学习算法。其中一章围绕推荐引擎展开,主要介绍音乐推荐。在随后的章节中我们先介绍Spark和MLib的实际应用,接着介绍一些机器学习的基本思想。 3.1 数据集 用户和艺术家的关系是 阅读全文
2016年8月16日
摘要:
数据清洗时数据科学项目的第一步,往往也是最重要的一步。 本章主要做数据统计(总数、最大值、最小值、平均值、标准偏差)和判断记录匹配程度。 Spark编程模型 编写Spark程序通常包括一系列相关步骤: 1. 在输入数据集上定义一组转换。 2. 调用action,用以将转换后的数据集保存到持久存储上, 阅读全文
摘要:
1.1 数据科学面临的挑战 第一,成功的分析中绝大部分工作是数据预处理。 第二,迭代与数据科学紧密相关。建模和分析经常需要对一个数据集进行多次遍历。这其中一方面是由机器学习算法和统计过程本身造成的。 第三,构建完编写卓越的模型不等于大功告成。数据科学的目标在于让数据对不懂科学的人有用。 1.2 认识 阅读全文
摘要:
学完了《Spark快速大数据分析》,对Spark有了一些了解,计划更近一步,开始学习《Spark高级数据分析》。这本书是用Scala写的,在学习的过程中想把其中的代码转换成Java版本,应该会花很长时间在这本书上。学习时使用的Spark版本是1.6.1,其实2.0.0已经出了,等以后有机会再更新到2 阅读全文
2015年11月25日
摘要:
Git为我们提供了Patch功能,Patch中包含了源码更改的描述,能够应用于其他Eclipse工作空间或者Git仓库。也就是说,可以将当前提交导出至其他分支或者项目中。 举个例子,项目A、B中使用了相同的JSP代码:ShowHello.jsp,当在A项目中修改了ShowHello.jsp,那么需要将这个修改复制到B项目,如果只是一个文件修改还好说,如果是多个目录下多个文件的修改就麻烦了... 阅读全文
2015年11月18日
摘要:
Sigar(System Information Gatherer And Reporter),是一个开源的工具,提供了跨平台的系统信息收集的API,核心由C语言实现的。项目中使用Sigar进行服务器监控。很多人都对它进行了介绍: http://www.oschina.net/p/sigar http://364434006.iteye.com/blog/1747490 上面两个... 阅读全文
2015年11月17日
摘要:
转帖:http://hi.baidu.com/configuration/item/97fddeea252818d0eb34c964 有时候使用Git工作得小心翼翼,特别是涉及到一些高级操作,例如reset, rebase 和 merge。甚至一些很小的操作,例如删除一个分支,我都担心数据丢失... 阅读全文
2015年11月16日
摘要:
先是使用的这种方法进行垂直居中: .vertical-center{position:absolute;top: 50%;left: 50%;transform:translate(-50%, -50%);} 但是在IE8中显示时错误的,改用下面的方式进行垂直位置调整了:.vertical-c... 阅读全文
摘要:
Sigar(SystemInformation Gatherer AndReporter),是一个开源的工具,提供了跨平台的系统信息收集的API,核心由C语言实现的。项目中使用Sigar进行服务器监控。很多人都对它进行了介绍:http://www.oschina.net/p/sigarhttp... 阅读全文
2015年11月13日
摘要:
Git为我们提供了Patch功能,Patch中包含了源码更改的描述,能够应用于其他Eclipse工作空间或者Git仓库。也就是说,可以将当前提交导出至其他分支或者项目中。 举个例子,项目A、B中使用了相同的JSP代码:ShowHello.jsp,当在A项目中修改了ShowHello.jsp,那... 阅读全文
2015年11月11日
摘要:
Spring官网改版后找了好久都没有找到直接下载Jar包的链接,下面汇总些网上提供的方法,亲测可用.1.直接输入地址,改相应版本即可:http://repo.springsource.org/libs-release-local/org/springframework/spring/3.2.4... 阅读全文
摘要:
比较喜欢暗色的Eclipse主题,安装了Eclipse colortheme,使用了Oblivion这个黑色背景的主题。更换了暗色的Eclipse主题后,Debug时看不清文字: 需要更背景颜色,在Eclipse的:Window → Perferences → General\Editor... 阅读全文
摘要:
早上开始工作时发现服务器挂掉了,重启TongWeb时有报错:上面的红框圈错了,第一个红框的下一行: java.io.IOException:No Space left on device我们用df查看发现磁盘没有空间了。 df和du首先我们了解df和du命令。df可以查看一级文件夹大小、使用比... 阅读全文
摘要:
如何统计项目的代码行数呢?其实使用Eclipse进行统计很方便.1.点击要进行统计代码行数的的项目或者文件夹,在菜单栏点击Search,然后点击File...,当然也可以直接使用快捷键"Ctrl+H" 2.选中正则表达式(Regularexpression),如果统计所有行数,输入\... 阅读全文
2015年8月16日
摘要:
《深入浅出数据分析》英文名为Head First Data Analysis Code,这本书中提供了学习使用的数据和程序,原书链接由于某些原因不能打开,这里在提供一个下载的链接。去下面的网页中可以找到到链接,不知道为什么博客中不能插入csdn的链接。 https://www.zybuluo.... 阅读全文
2015年8月13日
摘要:
转自http://www.cnblogs.com/linjiqin/archive/2013/06/24/3152674.htmlOracle 树操作(select…start with…connectby…prior)oracle树查询的最重要的就是select…start with…con... 阅读全文