博客园  :: 首页  :: 联系 :: 管理
上一页 1 ··· 15 16 17 18 19 20 21 22 23 ··· 36 下一页

2018年2月26日

摘要: imetime series data mining主要包括decompose(分析数据的各个成分,例如趋势,周期性),prediction(预测未来的值),classification(对有序数据序列的feature提取与分类),clustering(相似数列聚类)等。时序数据prediction 阅读全文

posted @ 2018-02-26 13:38 天戈朱 阅读(1314) 评论(0) 推荐(2) 编辑

2018年2月1日

摘要: IndexR是由舜飞科技研发的实时OLAP系统。于 2017 年 1 月初正式开源,目前已经更新至 0.6.1 版本,其作者认为IndexR具有以下特点: 超大数据集,低查询延时(超大数据集由HDFS保证,查询低延迟由MPP架构的Drill和IndexR专门设计的存储格式保证) 准实时 (和Drui 阅读全文

posted @ 2018-02-01 16:16 天戈朱 阅读(1633) 评论(1) 推荐(0) 编辑

2018年1月31日

摘要: 对于企业中常用的flume type 概括如下:ource(获取数据源): exec (文件) spoolingdir (文件夹) taildir(文件夹及文件的变动) kafka syslog http channel(管道): mem file kafka sink(将channel中的 数据发 阅读全文

posted @ 2018-01-31 00:13 天戈朱 阅读(1122) 评论(0) 推荐(0) 编辑

2018年1月29日

摘要: Cloudera 开发的分布式日志收集系统 Flume,是 hadoop 周边组件之一。其可以实时的将分布在不同节点、机器上的日志收集到不同的存储系统。Flume 初始的发行版本目前被统称为 Flume OG(original generation),属于 cloudera。但随着 Flume 功能 阅读全文

posted @ 2018-01-29 22:46 天戈朱 阅读(838) 评论(0) 推荐(0) 编辑

2018年1月27日

摘要: 可调用接口参考地址(没有免费的午餐): https://www.juhe.cn/docs/api/id/11 http://vip.showji.com/locating/?m=13606401549 选后者,API地址: http://v.showji.com/Locating/showji.co 阅读全文

posted @ 2018-01-27 11:10 天戈朱 阅读(425) 评论(0) 推荐(0) 编辑

摘要: 解决多维空间点索引需要解决2个问题,第一,如何把多维降为低维或者一维?第二,一维的曲线如何分形? 填充曲线(Space-filling curve) 在数学分析中,有这样一个难题:能否用一条无限长的线,穿过任意维度空间里面的所有点? 常见的有: Z阶曲线(Z-order curve)、皮亚诺曲线(P 阅读全文

posted @ 2018-01-27 11:10 天戈朱 阅读(8141) 评论(0) 推荐(4) 编辑

摘要: S2其实是来自几何数学中的一个数学符号 S²,它表示的是单位球。S2 这个库其实是被设计用来解决球面上各种几何问题的。值得提的一点是,除去 golang 官方 repo 里面的 geo/s2 完成度目前只有40%,其他语言,Java,C++,Python 的 S2 实现都完成100%了。看看怎么用 阅读全文

posted @ 2018-01-27 11:10 天戈朱 阅读(4693) 评论(2) 推荐(1) 编辑

摘要: 需求:计算不同区域范围,X公里半径内实体店或场站覆盖率。 实现思路: 为了便于理解,将地球看成一个基于经纬度线的坐标系。将经度和纬度看成二维坐标系中的两个纬度,横轴表示经度[-180o, 0o),(0o, 180o],纵轴表示纬度[-90o, 0o),(0o, 90o]。 以最小纬度和经度对应坐标为 阅读全文

posted @ 2018-01-27 11:10 天戈朱 阅读(1893) 评论(0) 推荐(0) 编辑

2017年12月12日

摘要: 日期格式化函数 Select CONVERT(varchar(100), GETDATE(), 0): 05 16 2006 10:57AM Select CONVERT(varchar(100), GETDATE(), 1): 05/16/06 Select CONVERT(varchar(100 阅读全文

posted @ 2017-12-12 21:07 天戈朱 阅读(358) 评论(0) 推荐(0) 编辑

2017年12月9日

摘要: 用户运营核心的方法论就三个:拉新,促活和留存。拉新可以作为渠道推广单独讨论,而促活和留存则相辅相成。产品专注的市场领域不同,活跃用户数天差地别。一款小众的垂直领域产品和泛社交类产品,单纯看活跃用户数,你很难界定它们好坏。 好的数据指标,都应该是比例或比率。 我们设定一个新指标,活跃率:某一时间段内活 阅读全文

posted @ 2017-12-09 16:22 天戈朱 阅读(5364) 评论(0) 推荐(0) 编辑

上一页 1 ··· 15 16 17 18 19 20 21 22 23 ··· 36 下一页