摘要: exception 能看到错误提示 traceback能看到具体的错误在哪一行,当try里面包含了上百行代码,包括功能现金的代码,如果只是用exception打印,可能不知道是哪出错了,而且不好调试定位,taraceback就十分好了。 sys.exc_info能看到错误类型和错误提示。 阅读全文
posted @ 2017-08-10 19:54 北风之神0509 阅读(880) 评论(0) 推荐(0) 编辑
摘要: 豆瓣的影评,每一页的页面链接不是可以预知的,url中start从0开始,第二页是20,第三页是40,这是理想状态,但真实不是这样。所以要从网页中提取下一页的链接,单线程,自己调用自己,每爬了几十分钟后报错maximum recursion depth exceeded in cmp,以为是个偶然,反 阅读全文
posted @ 2017-08-10 19:35 北风之神0509 阅读(412) 评论(0) 推荐(0) 编辑
摘要: mannual和adhoc模式比较 Manual vs. Adhoc In the script above, we start the ChromeDriver server process when we create the WebDriver object and it is termina 阅读全文
posted @ 2017-08-10 18:39 北风之神0509 阅读(376) 评论(0) 推荐(0) 编辑
摘要: 可以看看这个里面的介绍,写得很好。https://duo.com/blog/driving-headless-chrome-with-python 阅读全文
posted @ 2017-08-10 18:24 北风之神0509 阅读(575) 评论(0) 推荐(0) 编辑
摘要: from selenium import webdriverfrom selenium.webdriver.common.desired_capabilities import DesiredCapabilities dcap = dict(DesiredCapabilities.PHANTOMJS 阅读全文
posted @ 2017-08-10 17:52 北风之神0509 阅读(336) 评论(0) 推荐(0) 编辑
摘要: splash 文档地址 http://splash.readthedocs.io/en/latest/scripting-tutorial.html docker安装,自己百度。 装完docker后,运行 docker pull scrapinghub/spalsh docker run -d -p 阅读全文
posted @ 2017-08-10 17:43 北风之神0509 阅读(444) 评论(0) 推荐(0) 编辑