实时获取股票数据，免费！——Python爬虫Sina Stock实战

更多精彩内容，欢迎关注公众号：数量技术宅，也可添加技术宅个人微信号：sljsz01，与我交流。

实时股票数据的重要性

对于四大可交易资产：股票、期货、期权、数字货币来说，期货、期权、数字货币，可以从交易所提供的api收到实时行情数据，而股票由于量化交易接口不面向普通人开放，导致大家想要获取到股票的实时数据，十分困难。而与此同时，股票实时数据，又是极其重要的场内交易数据。

对于手动交易者而言，实时数据一方面可以辅助盯盘，另一方面，可以用程序简单开发到价提醒，到某个价位，进行入场和出场的交易。

对于量化交易者，实时行情就更加重要了。我们接收实时行情之后，不仅需要用实时数据计算策略信号，而且当策略信号需要对某个股票进行下单的时候，我们也需要知道该股票的最新价格、盘口数据，从而根据价格+盘口，选择合适的价位下单。此外，实时数据落地后，还可以为我们的策略回测服务。

爬虫最通俗原理解释

爬虫，相当于模仿了网页查询的动作，比如我们在浏览器中输入了www.baidu.com，浏览器向我们返回百度的主页，其实这就是一个请求+返回的过程。我们请求的是地址，返回的是数据（尽管我们看到的是百度主页，其实背后对应的还是一些列的数据，只不过后续的可视化展示成了网页）。

对于请求股票数据来说，也是同理。比如我们请求某一只股票的数据（以600000浦发银行为例），在浏览器地址中输入：http://hq.sinajs.cn/list=sh600000，股票代码可任意修改，浏览器返回如下数据集并显示：

当然同时查询多只股票，也是可以做到的，我们同样在浏览器中输入地址，例如：http://hq.sinajs.cn/list=sh600000,sz000001,sz000002，就同时查询到了浦发银行、平安银行、万科A的数据。

那么，对于Python来说，我们如何使用Python来模仿网页查询的动作？这里必须要借助一个Python的三方库：request库。

requests是使用Apache2 licensed 许可证的HTTP库。Request支持HTTP连接保持和连接池，支持使用cookie保持会话，支持文件上传，支持自动响应内容的编码，支持国际化的URL和POST数据自动编码。可以说，requests在python内置模块的基础上进行了高度的封装，从而使得python进行网络请求时，变得人性化，使用Requests可以轻而易举的完成浏览器可有的任何操作。与此同时，requests会自动实现持久连接keep-alive。

requests库的上述优点，加上其使用的便捷性，使得其成为Python爬虫的首选工具。我们通过requests，来重复一遍上述网页的查询过程，步骤也很简单，首先查询单个股票，返回如下

再次查询多个股票，返回如下，可以看到，用requests进行查询所返回的结果，与我们网页上看到的是完全一致的，这也说明requests完美的模拟了浏览器的请求动作。

Python爬虫Sina Stock实战

第一步，Sina API + Requests库调用核心函数

通过调用Sina Stock API，实时查询股票价格。我们采用多股票查询，使用requests请求接口。

核心函数逻辑：code传入股票代码，调用requests库进行查询，并解析查询结果，得到我们想要查询的股票最新价格、当日涨跌幅、昨收盘价等关键字段

第二步，通过threading多线程同时查询结果、通过Queue实现线程池

我们简要介绍一下threading和Queue。threading模块中包含了关于线程操作的丰富功能，包括：常用线程函数，线程对象，锁对象，递归锁对象，事件对象，条件变量对象，信号量对象，定时器对象，栅栏对象。threading.Thread:线程对象，重要方法，start()：开启线程活动。它将使得run()方法在一个独立的控制线程中被调用，需要注意的是同一个线程对象的start()方法只能被调用一次，如果调用多次，则会报RuntimeError错误。run()：此方法代表线程活动。

Python的Queue模块中提供了同步的、线程安全的队列类，包括FIFO（先入先出)队列Queue，LIFO（后入先出）队列LifoQueue，和优先级队列PriorityQueue。这些队列都实现了锁原语，能够在多线程中直接使用。可以使用队列来实现线程间的同步。Queue.put(item) 写入队列；Queue.get([block[, timeout]])获取队列

第三步，模块化实现：Worker类 & Stock类

Worker类，主要实现功能：