摘要: 前言 并行计算是使用并行计算机来减少单个计算问题所需要的时间,我们可以通过利用编程语言显式的说明计算中的不同部分如何再不同的处理器上同时执行来设计我们的并行程序,最终达到大幅度提升程序效率的目的。 众所周知,Python中的GIL限制了Python多线程并行对多核CPU的利用,但是我们仍然可以通过各 阅读全文
posted @ 2019-01-25 15:59 派森学python 阅读(529) 评论(0) 推荐(0) 编辑
摘要: 前言 最近在写文章需要绘制一些一维的能量曲线(energy profile)和抽象的二维和三维的网格来表示晶体用来描述自己的算法,于是自己在之前的脚本的基础上进行了整改写成了只提供接口的Python库,基本思想就是封装了matplotlib中相关接口,方便快速搭建和定制自己的能量曲线和网格结构, 代 阅读全文
posted @ 2019-01-25 15:54 派森学python 阅读(296) 评论(0) 推荐(0) 编辑
摘要: ​ 本文将使用Python来可视化股票数据,比如绘制K线图,并且探究各项指标的含义和关系,最后使用移动平均线方法初探投资策略。 数据导入 这里将股票数据存储在stockData.txt文本文件中,我们使用pandas.read_table()函数将文件数据读入成DataFrame格式。 其中参数us 阅读全文
posted @ 2019-01-25 15:48 派森学python 阅读(759) 评论(0) 推荐(0) 编辑
摘要: 最近由于需要一直在研究微博的爬虫,第一步便是模拟登陆,从开始摸索到走通模拟登陆这条路其实还是挺艰难的,需要一定的经验,为了让朋友们以后少走点弯路,这里我把我的分析过程和代码都附上来。 首先,我们先用正常的账号登陆,具体看会有些什么请求。这里我用的是Http Analyzer抓包(Filders也是一 阅读全文
posted @ 2019-01-25 15:32 派森学python 阅读(228) 评论(0) 推荐(0) 编辑
摘要: 本篇文章将是『如何构建一个分布式爬虫』系列文章的最后一篇,拟从实战角度来介绍如何构建一个稳健的分布式微博爬虫。这里我没敢谈高效,抓过微博数据的同学应该都知道微博的反爬虫能力,也知道微博数据抓取的瓶颈在哪里。我在知乎上看过一些同学的说法,把微博的数据抓取难度简单化了,我只能说,那是你太naive,没深 阅读全文
posted @ 2019-01-25 15:22 派森学python 阅读(344) 评论(0) 推荐(0) 编辑
摘要: 大学生都知道那种选课时无课可选的痛苦,而我所在的大学甚至对大部分课程都不提供候补系统。我们每天不得不多次登录查看选课网站。这种机械操作似乎是计算机擅长的事,所以我着手用一些学过的 Python 知识和Twilio API来实现选课自动化 开始阶段 由于大学的课程注册系统需要密码登录,我们打算使用自建 阅读全文
posted @ 2019-01-25 15:18 派森学python 阅读(386) 评论(0) 推荐(0) 编辑
摘要: 前言 本次主题分两篇文章来介绍: 一、数据采集 二、数据分析 第一篇先来介绍数据采集,即用python爬取网站数据。 1 运行环境和python库 先说下运行环境: python3.5 windows 7, 64位系统 python库 本次智联招聘的网站爬取,主要涉及以下一些python库: req 阅读全文
posted @ 2019-01-25 15:05 派森学python 阅读(253) 评论(0) 推荐(0) 编辑
摘要: 前言 从智联招聘爬取相关信息后,我们关心的是如何对内容进行分析,获取用用的信息。 本次以上篇文章“5分钟掌握智联招聘网站爬取并保存到MongoDB数据库”中爬取的数据为基础,分析关键词为“python”的爬取数据的情况,获取包括全国python招聘数量Top10的城市列表以及其他相关信息。 一、主要 阅读全文
posted @ 2019-01-25 15:00 派森学python 阅读(209) 评论(0) 推荐(0) 编辑
摘要: 对于网站来说,给用户一个较好的体验是很重要的事情,其中最重要的指标就是网站的浏览速度。因此服务端要从各个方面对网站性能进行优化,比如可采用CDN加载一些公共静态文件,如js和css;合并css或者js从而减少静态文件的请求等等……还有一种方法是将一些不需要立即返回给用户,可以异步执行的任务交给后台处 阅读全文
posted @ 2019-01-25 14:47 派森学python 阅读(269) 评论(1) 推荐(0) 编辑