摘要:
-背景: 鉴于我们使用mongo作为数据库,期间少不了需要添加索引和对业务表进行设计。因此以下我对mongo索引及表设计原则做了一些分享。希望对大家有用,如有错误还望指正~ MongDB的索引类型简介: -单键索引、复合索引、多键索引、地理空间索引、全文本索引和哈希索引 1,单建索引 1:升序 -1 阅读全文
摘要:
背景: 由于本人使用的是6.0以上的版本es,在使用发现很多中文博客对于mapping参数的说明已过时。ES6.0以后有很多参数变化。 现我根据官网总结mapping最新的参数,希望能对大家有用处。 es6.0与之前版本区别: -新增字段: eager_global_ordinals -删除的字段: 阅读全文
摘要:
背景: 1,系统简介:通过人工解读研报然后获取并录入研报分类及摘要等信息,系统通过摘要等信息来获得该研报的URI 2,现有实现:老系统使用MSSQL存储摘要等信息,并将不同的关键字分解为不同字段来提供搜索查询 3,存在问题: -查询操作繁琐,死板:例如要查某个机构,标题含有周报的研报,现有系统需要勾 阅读全文
摘要:
linux 日常指令总结(ubuntu): ls -lha 所有文件及权限 ls -lsh;-lrsh 修改日期降序;升序 df -h 系统磁盘空间 du -sh 当前目录大小 du -ah --max-depth=1 显示目录下所有的文件和文件夹(不含子目录)所占空间 mv file_a file 阅读全文
摘要:
1,Mac上安装(指定java8) 2,优化配置 3,Elasticsearch索引配置 ※特别提示:在6.1版本之后doc的字段属性: 1,index的配置参数变更为True 或 False 而非之前的:not_analyzed和no 2,include_in_all参数取消,使用copy_to来 阅读全文
摘要:
数据方案: 在Elasticsearch中通过code及time字段查询对应doc的mongo_id字段获得mongodb中的主键_id 通过获得id再进入mongodb进行查询 1,数据情况: 全部为股票及指数的分钟K线数据(股票代码区分度较高) Elasticsearch及mongodb都未分片 阅读全文
摘要:
场景20亿分钟K线数据的更新及查找 1,了解数据使用情况 这些k线数据用于回测,而对于分钟k线回测: 大部分回测周期在近几个月或近几年 热门股票几多沪深300、上证50等 分钟回测需要一定的实时性既在开盘时间进行回测,需要最近的数据 数据增量每日几百MB ※初始热数据的划分需要对业务进行深入了解 ※ 阅读全文
摘要:
项目部署时用到了docker,以下分享了我在实践中使用的指令,和对docker一些个人的理解(※和字体加重部分) 本文选择使用网易的镜像源:https://c.163.com/hub#/m/home/ 服务器环境nginx+uwsgi+django+celery+supervisor 1,常用指令: 阅读全文
摘要:
个人认为以下军规主要为了适应海量数据场景,对于业务复杂性系统并一定完全按照此军规 一,核心军规 不在数据库做计算,cpu计算务必移至业务层 控制单表数据量,单表记录控制在千万级 控制列数量,字段数控制在20以内 平衡范式与冗余,为提高效率可以牺牲范式设计,冗余数据 拒绝3B(big),大sql,大事 阅读全文
摘要:
目前网上有很多关于scrapy的文章,这里我主要介绍一下我在开发中遇到问题及一些技巧: 1,以登录状态去爬取(带cookie) -安装内容: brew install phantomjs (MAC上) pip install selenium -代码: ※特别提示:当需要爬取动态内容(js加载的内容 阅读全文