搞定了日线数据

<本文的原始位置: http://bluegene8210.is-programmer.com/posts/21877.html>

 

    ---- 新添了下载任务,来源是新浪财经,现在可以扒下来日线数据了:

 

    ---- 过程中的几个要点:

    1. Nested List Comprehension:
   
    由分别为 m 项和 n 项的两个 list 生成一个 m×n 项的 list:

mylist= ['a', 'b', 'c']
print([s * n for n in range(1, 4) for s in mylist])
print([s * n for s in mylist for n in range(1, 4)])

    这段代码的输出是:

        ['a', 'b', 'c', 'aa', 'bb', 'cc', 'aaa', 'bbb', 'ccc']
        ['a', 'aa', 'aaa', 'b', 'bb', 'bbb', 'c', 'cc', 'ccc']

    2. lambda 函数的应用:

ptn_option= r'<option\s+value\s*=\s*"\d{4}"'     # 用来提取 '<option value="2010"' 这一部分
allyears= list(map(lambda s: re.search(r'\d{4}', s).group(0), re.findall(ptn_option, tagselect)))

    其中 tagselect 是 hmtl 页面源文件中的一个 "select" element,里面包含多个 "option" element,格式是:'<option value="2010">'
    上面那一段可以把所有 option 的值,也就是年份提取出来。

    3. 下载的时候不能 "扒太快"。往任务队列添加任务需要有一定延迟。如果没有设延迟,新浪服务器会隔段时间不理你。

    ---- 接下来准备建数据库,然后跑些简单的分析,事情开始慢慢变得有趣 。。。

    ---- 另外要记一下,网上有个叫 Andy 的达人,在实时行情上面下了功夫:

        太好了! 终于搞定了股票实时行情解决方案

        实时股票数据接口大全

    自己的目标是先从历史数据,静态分析入手,慢慢培养感觉。但是,对于实时行情相关的技术,也要保持关注。

 

 

 

 

posted @ 2013-05-18 21:54  JackyLiu2010  阅读(382)  评论(0编辑  收藏  举报