摘要: ###创建时间序列 函数pd.date_range() 根据指定的范围,生成时间序列DatetimeIndex,每隔元素的类型为Timestamp。该函数应用较多。 ts = pd.date_range('2017-09-01', periods=10, freq='d', normalize=Fa 阅读全文
posted @ 2021-07-31 23:40 ledao 阅读(43) 评论(0) 推荐(0) 编辑
摘要: ###目的 在Tensorflow的教程里面,使用梯度下降算法训练神经网络时,都会提到一个使模型更加健壮的策略,即滑动平均模型。本文基于最近一段时间的学习,记录一下自己的理解。 ###基本思想 在使用梯度下降算法训练模型时,每次更新权重时,为每个权重维护一个影子变量,该影子变量随着训练的进行,会最终 阅读全文
posted @ 2021-07-31 23:39 ledao 阅读(61) 评论(0) 推荐(0) 编辑
摘要: 目的 其实,说白了就是人想知道这个文档是做什么的。首先给每篇文章一个标签、构建文档的特征,然后通过机器学习算法来学习特征和标签之间的映射关系,最后对未知的文本进行标签的预测。 在海量信息的互联网时代,文本分类尤其重要。sklearn作为即可学术研究,也可构建产品原型,甚至发布商用产品的机器学习包,里 阅读全文
posted @ 2021-07-31 23:38 ledao 阅读(605) 评论(0) 推荐(0) 编辑
摘要: ###目的 在数据分析时,很多场景下是对数据进行整理、汇总和规整。虽然Pandas有类似SQL的操作,但真正的使用SQL还是方便不少。本文演示怎么通过SQL对数据进行预处理,并返回结果到DF中。 import pandas as pd from sqlalchemy import create_en 阅读全文
posted @ 2021-07-31 23:37 ledao 阅读(141) 评论(0) 推荐(0) 编辑
摘要: 目的 在时序分析时,我们经常需要将原始序列进行差分,然后做出拟合或者预测,最后还需要将拟合的或者预测的值恢复成原始序列。这里,使用Pandas的Series中的diff和cumsum函数可以方便的实现。 一次一阶差分的恢复 import pandas as pd time_series = pd.S 阅读全文
posted @ 2021-07-31 23:37 ledao 阅读(826) 评论(0) 推荐(0) 编辑
摘要: 创建MySQL引擎 import pandas as pd from sqlalchemy import create_engine engine = create_engine('mysql+pymysql://ledao:ledao123@localhost/pandas_learn') 以默认 阅读全文
posted @ 2021-07-31 23:20 ledao 阅读(271) 评论(0) 推荐(0) 编辑
摘要: 目的 在数据分析时,我们有中间结果,或者最终的结果,需要保存到数据库中;或者我们有一个中间的结果,如果放到数据库中通过sql操作会更加的直观,处理后再将结果读取到DataFrame中。这两个场景,就需要用到DataFrame的to_sql操作。 具体的操作 连接数据库代码 import pandas 阅读全文
posted @ 2021-07-31 23:20 ledao 阅读(393) 评论(0) 推荐(0) 编辑
摘要: ### 目的在做数据分析的时候,我们的数据一般从数据库来,那么就涉及到groupby操作。例如,我们要预测一个居民小区的未来一段时间的电费,那么就要将数据按照小区groupby,然后按照时间排序,这里groupby操作可完美的完成这个任务。假设数据表cellfee结构为:reportdate, ci 阅读全文
posted @ 2021-07-31 23:20 ledao 阅读(248) 评论(0) 推荐(0) 编辑
摘要: 目的 在做数据分析时,一般需要从数据库中读取数据,然后再交给算法进行分析,最后将结果保存。为了简化分析的过程,我一般会将数据保存在Mysql数据库中,使用SQL进行初步处理、使用MySQL保存中间结果,可以大大的简化数据的维护负担。 本文关注Pandas与MySQL的连接部分 1.安装驱动 我的环境 阅读全文
posted @ 2021-07-31 23:19 ledao 阅读(689) 评论(0) 推荐(0) 编辑
摘要: 模式切换 模式 说明 普通模式 打开文件后默认模式,该模式下可进行光标移动、页面翻转等查看操作;任意模式下按ESC即可退回该模式 可视模式 高亮选中的文本时会进入该模式,常用于选中区域文本;最简单的按v然后移动光标即可选中多行文本 插入模式 即可通过键盘修改文本的模式,编写代码一般处于该模式中;一般 阅读全文
posted @ 2021-07-31 23:18 ledao 阅读(86) 评论(0) 推荐(0) 编辑
摘要: Prophet支持Python和R,我只只体验了Python版本的。 1. Windows版本 我的Windows 10安装测试成功,需要安装的软件包括:1)visual studio 2015 build tools;2)Pystan;3)fbprophet。 踩过的坑为:Windows版本下不支 阅读全文
posted @ 2021-07-31 23:18 ledao 阅读(152) 评论(0) 推荐(0) 编辑
摘要: #### 背景在同构的n个数据中取Top K的最大值或者最小值有很多方法,例如:- 排序后,取前K个或者后K个,算法复杂度为nlog(n);- 维护大小为K的最大(小)堆,最后取堆中的元素,算法 复杂度为nlog(k)。当n很大时,第二种方法可以得到显著的速度提升。本文以C++保准库提供的priot 阅读全文
posted @ 2021-07-31 23:17 ledao 阅读(908) 评论(0) 推荐(0) 编辑
摘要: 要点 简化问题 减少计算量 套路 定义状态 定义动作 定义边界 缓存已知 硬币找零问题 问题:有三种面值硬币1,3,5,且无限量,请问共需要找零n元,最少需要几枚硬币? 定义状态:minCoinNum(n), 即n元需要的最小硬币数目。 定义动作(分而治之):假如我知道了minCoinNum(n-1 阅读全文
posted @ 2021-07-31 23:17 ledao 阅读(36) 评论(0) 推荐(0) 编辑
摘要: Java/Kotlin界的Flask,只是生态还不是很足。像我一样仅仅是提供一个供内部系统使用的接口,还是比较合适的,基于jetty,性能也不会差。 【转载,原文】https://www.oschina.net/news/95263/javalin-1-6-0-released Javalin 1. 阅读全文
posted @ 2021-07-31 23:16 ledao 阅读(2071) 评论(0) 推荐(0) 编辑
摘要: xmake 国产编程语言编译系统,简单易用,网址:https://xmake.io/#/ pybind11 简单易用的C++和Python的双向绑定项目,借鉴boost.python,网址为:http://pybind11.readthedocs.io/en/stable/basics.html x 阅读全文
posted @ 2021-07-31 23:16 ledao 阅读(569) 评论(0) 推荐(2) 编辑
摘要: 目的 在文本查找算法中,BM算法据说是最快的,号称亚线性。网上有很多的介绍,但大部分都是使用c语言构建,而且有些程序根本就不对。这里,经过整理和调试,将可用的kotlin版本贴出来,想用的可直接拿走。 算法简介 有比较好的博客对算法进行了介绍 字符串匹配的Boyer-Moore算法 [## BM算法 阅读全文
posted @ 2021-07-31 22:58 ledao 阅读(105) 评论(0) 推荐(0) 编辑
摘要: 一 目的 在编写程序时,本人使用第二多的数据结构是键值对,通过唯一的key来索引一个可以更加“精密”数据结构。总结来说,在我的产品中,应用较多的两个场景分别是: 通过key-value返回context,例如使用django、spring boot等框架编写后端; 存储大量的结构化信息,通过唯一的k 阅读全文
posted @ 2021-07-31 22:58 ledao 阅读(507) 评论(0) 推荐(0) 编辑
摘要: 目的 在自然语言处理领域,如果我们要在文本中检测特定的词,这就是模式匹配的问题。如果检测多个词,则是多模式匹配。最简单的方法是依次在给定的文本中检测所有感兴趣模式(兴趣词),这样做在兴趣词很多的时候,或者文本很大的时候,其计算复杂度很高,所以就有了AC算法,其计算复杂度相比上述方法降低不少。另外还有 阅读全文
posted @ 2021-07-31 22:57 ledao 阅读(153) 评论(0) 推荐(0) 编辑
摘要: 目的 之前写了一篇文章多模式匹配AC算法Java(kotlin)实现,可建模中文,里面通过建模char(unicode)来实现跳转,使用的是map。但是通过私下的实验,其实这样做性能并不高,而且代码复杂难懂。更通用的做法是将unicode字符串转换为bytes,每个byte256种情况,也就是为每个 阅读全文
posted @ 2021-07-31 22:57 ledao 阅读(61) 评论(0) 推荐(0) 编辑