摘要:
1. 介绍 ElasticSearch简称ES。 先来看它的用途:如果只是在多个机器同步,存储和检索大量数据,它与数据库的差别在哪儿,为什么非要使用ES呢? ES是目前全文搜索引擎的首选。全文检索是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立... 阅读全文
摘要:
1. 说明 FDDC2018金融算法挑战赛01-A股上市公司季度营收预测,是天池最近的一个算法比赛,7月15是初赛提交的deadline,就最后两天了,也没法做得太细,看看怎么用最短的时间,抓住最关键的值,搭个简单的架子。 2. 数据分析 1... 阅读全文
摘要:
1. 说明 一般情况下,我们用Docker run命令将docker启成普通进程。有时候我们有多台运行docker的机器,希望Docker以集群方式运行。与手动启动不同Docker,集群涉及统一管理,各服务的状态监控,负载均衡,日志文件,重启,统... 阅读全文
摘要:
说明 之前,基本是在单机上用Docker,在不影响当前环境的前提下,创建和使用一些特殊环境。最近,涉及到多Docker的协作,比如:在同一服务器上启动和管理多个容器;在一台服务器上使用类似的镜像版本,在不同的机器之间复制镜像等等,积累了一些doc... 阅读全文
摘要:
1. 说明 做数据挖掘常常需要抓取网页内容,有些工具能通过分析url中的链接,把整个网站抓下来,也就是我们常说的爬虫工具。 有时候需要把交互网页的内容抓下来,比如:在input框中输入想查的内容,服务器端实时计算结果,或者从数据库中查询后返回... 阅读全文
摘要:
常常听说数据预处理,后处理相对少见,本篇来说说何时需要后处理,以及后处理的一些简单方法。 数据挖掘的流程一般是:输入数据->特征工程->模型训练/预测->导出结果。后处理是将模型预测的结果进一步处理后,再导出。 先看一个例子:比如我们网购小... 阅读全文
摘要:
1、 说明 SentencePiece是一个google开源的自然语言处理工具包。网上是这么描述它的:数据驱动、跨语言、高性能、轻量级——面向神经网络文本生成系统的无监督文本词条化工具。 那么它究竟是干什么的呢?先举个例子:假设在数据挖掘时,... 阅读全文
摘要:
1. 说明 Prophet是FaceBook开源的时序框架。非常简单实用,你不需要理解复杂的公式,看图,调参,调用十几行代码即可完成从数据输入到分析的全部工作,可谓懒人之利器。 在效果方面,我在同一项目中尝试了ARIMA,将星期和节假日作为特征代入GBDT,P... 阅读全文
摘要:
1. 说明 本篇主要针对在Ubuntu系统中,matplotlib显示不了中文的问题,尤其是在无法安装系统字体的情况下,解决Python绘图时中文显示的问题。 2. 在系统中安装字体 $ fc-list :lang=zh # 查看中文字体名称及其安装路径,相... 阅读全文
摘要:
1. 说明 美年健康AI大赛的复赛是线上赛,只能使用数加平台。第一次用数加,也遇到一些问题,在此总结一下。2. 问题及解答(1) 如何登录? 得到复赛资格之后,天池赛题网页左侧的列表中就会多出一项“数加”,点击进入后,按提示得到RAM帐号,即可以登录“数据开发... 阅读全文