随笔分类 - 数据分析
摘要:一、上下文数据存储 tushare发生了重大改版,不再直接提供免费服务。需要用户注册获取token,并获取足够积分才能使用sdk调用接口。 1、获取股票交易日信息保存到csv文件 没有找到csv文件时:获取股票交易日信息并导出到csv文件。 如果有找到csv文件,则直接读取数据。 注意:新版tush
阅读全文
摘要:一、羊驼交易法则 1、羊驼交易原理 起始时随机买入N只股票,每天卖掉收益率最差的M只,再随机买入剩余股票池的M只。 总结:随机选股,周期调仓。 原理:物竞天择,找出最强的好股票。(玄学) 2、改进策略 买入历史收益率最低的N只股票,调仓日留下反转程度大的股票,卖掉表现最差的M只股票,再买入收益率最低
阅读全文
摘要:一、动量策略和反转策略介绍 1、动量效应&反转效应 动量效应(Momentum effect):股票的收益率有延续原来的运动方向的趋势,即过去一段时间收益率较高的股票在未来获得的收益率仍会高于过去收益率较低的股票。 反转效应(Reversal effect):在一段较长的时间内,表现差的股票在其后的
阅读全文
摘要:一、PEG指标介绍 PEG指标:市盈率相对盈利增长比率,上市公司的市盈率除以盈利增长速度得到的数值。该指标既通过市盈率考察公司目前的财务状况,又通过盈利增长率考察了未来一段时期内公司的增长预期。 1、市盈率 市盈率(PE) = 股价(P) / 每股收益(EPS) 市盈率 ≈ 市值 / 净收益 例如:
阅读全文
摘要:一、布林带策略介绍 布林带/布林线/保利加通道(Bollinger Band):由三条轨道线组成,其中上下两条线分别可以看成是价格的压力线和支撑线,在两条线之间是一条价格平均线。 一般来说,股价会运行在压力线和支撑线所形成的通道中。 与MACD、RSI、KDJ等指标一样,布林线(BOLL)指标也是股
阅读全文
摘要:一、均值回归理论 均值回归:股票价格无论高于或低于价值中枢(或均值)都会以很高的概率向价值中枢回归的趋势。何时会发生均值回归,属于“随机漫步”范畴。 均值回归的理论基于以下观测:价格的波动一般会以它的均线为中心。即当标的价格由于波动而偏离移动的均线时,它将调整并重新归于均线。 偏离程度:(MA-P)
阅读全文
摘要:一、因子选股策略 1、因子 因子:选择股票的某种标准。因子是能够预测股票收益的变量。 (1)基本面因子 基本面因子描述了一个公司的财务状况,最常见的基本面因子是由利润表,资产负债表以及现金流量表中的数据直接计算出的比率。通过财务报表可以构建出无数的财务比率及财务报表变量的组合,并以此来预测股票的收益
阅读全文
摘要:一、入门量化策略 JoinQuant聚宽API文档:https://www.joinquant.com/help/api/help?name=api 1、获取要操作的股票或指数成分股 # 导入函数库 import jqdata # 初始化函数,设定基准 def initialize(context)
阅读全文
摘要:一、双均线概念 均线:对于每一个交易日,都可以计算出前N天的移动平均值,然后把这些平均值连起来,成为一条线,就叫做N日移动平均线。移动平均线常用线有5日、10日、30日、60日、120日的指标。 5日和10日的是短线操作参照指标,称作日均线指标; 30日和60日的是中期均线指标,称作季均线指标; 1
阅读全文
摘要:一、Tushare介绍 Tushare是一个免费、开源的python财经数据接口包。主要实现对股票等金融数据从数据采集、清洗加工到数据存储的过程,能够为金融分析人员提供快速、整洁、多样的便于分析的数据,使得数据获取方面极大地减轻工作量,更加专注于策略和模型的研究和实现。 Tushare从新浪财经、腾
阅读全文
摘要:一、Matplotlib介绍 Matplotlib是一个强大的Python**绘图**和**数据可视化**的工具包。 执行后显示效果如下: 二、plot函数使用 plot函数:用于绘制折线图。 1、绘制线型图 线型linestyle:‘-’是实线、'--'是线虚线、‘-.’是线点虚线等、‘:’是点虚
阅读全文
摘要:一、pandas简介 pandas是一个强大的Python数据分析的工具包,是基于NumPy构建的。 1、pandas的主要功能 (1)具备对其功能的数据结构DataFrame、Series (2)集成时间序列功能 (3)提供丰富的数学运算和操作 (4)灵活处理缺失数据 2、安装和引用 二、Seri
阅读全文
摘要:一、Ipython入门 IPython是一个交互式python命令行。 (1)安装IPython (2)ipython的使用 In代表输入,响应的结果则显示在Out中。与python解释器的使用方法一致。 二、IPython高级功能 1、TAB键自动补全 2、?:内省、命名空间搜索 内省操作,说明前
阅读全文
摘要:需求:爬取的是基于文字的网易新闻数据(国内、国际、军事、航空)。 基于Scrapy框架代码实现数据爬取后,再将当前项目修改为基于RedisSpider的分布式爬虫形式。 一、基于Scrapy框架数据爬取实现 1、项目和爬虫文件创建 2、爬虫文件编写——解析新闻首页获取四个板块的url 执行爬虫文件,
阅读全文
摘要:一、分布式爬虫介绍 分布式爬虫概念:多台机器上执行同一个爬虫程序,实现网站数据的分布爬取。 1、原生的Scrapy无法实现分布式爬虫的原因? 调度器无法在多台机器间共享 :因为多台机器上部署的scrapy会各自拥有各自的调度器,这样就使得多台机器无法分配start_urls列表中的url。 管道无法
阅读全文
摘要:针对问题:如果想对某一个网站的全站数据进行爬取,该如何处理? 解决方案: 1. 手动请求的发送:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法) 2. CrawlSpider:基于CrawlSpider的自动爬取进行实现(更加简洁和高效) 一、Cra
阅读全文
摘要:一、Scrapy的日志等级 在使用scrapy crawl spiderFileName运行程序时,在终端里打印输出的就是scrapy的日志信息。 1、日志等级(信息种类) ERROR:错误 WARNING:警告 INFO:一般信息 DEBUG:调试信息(默认) 2、设置日志信息指定输出 在sett
阅读全文
摘要:Cookie 是在 HTTP 协议下,服务器或脚本可以维护客户工作站上信息的一种方式。Cookie 是由 Web 服务器保存在用户浏览器(客户端)上的小文本文件,它可以包含有关用户的信息。无论何时用户链接到服务器,Web 站点都可以访问 Cookie 信息cookie需要个人用户登录网站。 场景需求
阅读全文
摘要:一、介绍 持久化存储操作分为两类: 磁盘文件 和 数据库 。 而磁盘文件存储方式又分为: 基于终端指令 和 基于管道 二、基于终端指令的持久化存储 Scrapy是通过 scrapy 命令行工具进行控制的。 这里我们称之为 “Scrapy tool” 以用来和子命令进行区分。 对于子命令,我们称为 “
阅读全文
摘要:一、Scrapy介绍 1、Scrapy是什么 Scrapy 是一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛,可用于如数据挖掘、监测和自动化测试等领域,也可以应用在获取AP
阅读全文