随笔 - 383
文章 - 0
评论 - 0
阅读 -
35125
05 2018 档案
自然语言处理之_SentencePiece分词
摘要:1、 说明 SentencePiece是一个google开源的自然语言处理工具包。网上是这么描述它的:数据驱动、跨语言、高性能、轻量级——面向神经网络文本生成系统的无监督文本词条化工具。 那么它究竟是干什么的呢?先举个例子:假设在数据挖掘时,...
阅读全文
时序预测之四_Prophet时序模型
摘要:1. 说明 Prophet是FaceBook开源的时序框架。非常简单实用,你不需要理解复杂的公式,看图,调参,调用十几行代码即可完成从数据输入到分析的全部工作,可谓懒人之利器。 在效果方面,我在同一项目中尝试了ARIMA,将星期和节假日作为特征代入GBDT,P...
阅读全文
Python编程_在Matplotlib图中显示中文字体
摘要:1. 说明 本篇主要针对在Ubuntu系统中,matplotlib显示不了中文的问题,尤其是在无法安装系统字体的情况下,解决Python绘图时中文显示的问题。 2. 在系统中安装字体 $ fc-list :lang=zh # 查看中文字体名称及其安装路径,相...
阅读全文
实战美年健康AI大赛之四_复赛使用数加平台
摘要:1. 说明 美年健康AI大赛的复赛是线上赛,只能使用数加平台。第一次用数加,也遇到一些问题,在此总结一下。2. 问题及解答(1) 如何登录? 得到复赛资格之后,天池赛题网页左侧的列表中就会多出一项“数加”,点击进入后,按提示得到RAM帐号,即可以登录“数据开发...
阅读全文
实战美年健康AI大赛之三_大数据量的简化
摘要:1. 说明 美年健康也是一个认真打的比赛,初赛B榜最高分0.0279,排名15. 最初是想用它实践一下自然语言处理,后面发现,另一个与之前比赛不同的地方,就是数据量很大,之前也做过几十上百万条记录的,但是特征少,这次57000多个记录,2700多...
阅读全文
实战美年健康AI大赛之二_相关问题与思考
摘要:1. 说明 上次把钉钉号写回复里了,最近就有不少师兄加我,问一些关于比赛的问题,五一后可能也没啥时间回复了,下面就把常见的问题统一总结一下,只是我个人理解,欢迎大家纠正指导。 2. 你用了哪些方法做到0.286? 说出来可能有人不信,我只用...
阅读全文