上一页 1 2 3 4 5 6 7 8 9 ··· 12 下一页
摘要: 问题描述: 今天因为在学习要使用selenium这个python库,我下载好了selenium,并且也Import成功了,但是在我使用webdirver.chorme()时,却提示PATH路径中没有chromedriver。 解决方法: 我按照python上运行结果的提示,进入到chromedriv 阅读全文
posted @ 2017-11-02 15:13 whatyouknow123 阅读(6601) 评论(0) 推荐(0) 编辑
摘要: 一、简单动态页面爬取 我们之前进行的页面爬取工作都是基于静态的页面。但是现在的很多页面都采用了动态页面,这些动态页面又有百分之七十是由javascript写的,因此我们了解如何从javascript页面爬取信息就显得非常的重要。 先认识具体情况之前,我们需要先了解什么是ajax,ajax它的英文全称 阅读全文
posted @ 2017-10-30 21:23 whatyouknow123 阅读(3746) 评论(0) 推荐(0) 编辑
摘要: 以下内容是《用Python写网络爬虫》的读书笔记: 一、串行爬虫 我们之前使用的爬虫方式,都是一个页面接着一个页面下载,也就是使用串行的方式进行爬虫。但是显然这种方式下载的速度是非常的慢的,特别是当我们需要下载大量页面的时候这个问题就会变得更加的突出。所以本节内,就学习如何进行多线程和多进程的并行爬 阅读全文
posted @ 2017-10-30 19:39 whatyouknow123 阅读(780) 评论(0) 推荐(0) 编辑
摘要: 以下内容是《用python写网络爬虫》的读书笔记 之所以要缓存下载页面,是为了避免重复下载所造成的资源浪费。 一、为链接爬虫添加缓存支持 我们将重写download函数,将其变成一个类。 所谓的为链接爬虫添加缓存支持,就是在每次下载页面的时候判断以下这个页面是不是之前已经下载过了,如果已经下载过了, 阅读全文
posted @ 2017-10-29 18:14 whatyouknow123 阅读(578) 评论(0) 推荐(0) 编辑
摘要: 1.Python文件的命名: 采用每个单词的首字母大写,不使用下划线 2.Python类的命名: 采用每个单词的首字母大写,不使用下划线 3.Python包名的命名:采用每个单词都是小写,不使用下划线 4.Python函数(方法)的命名:每个单词都是小写,如果有多个单词组成 5.Python全局变量 阅读全文
posted @ 2017-10-27 20:44 whatyouknow123 阅读(270) 评论(0) 推荐(0) 编辑
摘要: http://blog.csdn.net/laozitianxia/article/details/50682100 这个博客介绍的很详细。 阅读全文
posted @ 2017-10-27 16:26 whatyouknow123 阅读(191) 评论(0) 推荐(0) 编辑
摘要: 以下内容是《用python写网络爬虫》的读书笔记 一、安装firebug lite firebug lite是一个用于在网站中查看调试html,css和javascript的有效工具。它现在可以安装在chrome和firefox浏览器上。chrome浏览器的安装教程。firefox浏览器的安装教程。 阅读全文
posted @ 2017-10-24 18:35 whatyouknow123 阅读(413) 评论(0) 推荐(0) 编辑
摘要: 以下是《用python写网络爬虫》的读书笔记: 一.背景调研 1.检查robots.txt文件,通过在所需要爬取数据的页面的网址后加上robots.txt就可以看到当前网站对于数据爬取有哪些限制 以下是一个典型的robots.txt文件,这个robots.txt文件是网站 http://exampl 阅读全文
posted @ 2017-10-23 18:38 whatyouknow123 阅读(1686) 评论(0) 推荐(0) 编辑
摘要: 以下内容是python tutorial的读书笔记: 一.命名空间的分层 二.local赋值语句,nonlocal和global的区别 local赋值语句,它是无法实现对于最里层的作用域的重新绑定的 nonlocal,它是可以实现对于最里层的作用域的重新绑定的 global,它可以实现模块级的参数绑 阅读全文
posted @ 2017-10-19 22:14 whatyouknow123 阅读(187) 评论(0) 推荐(0) 编辑
摘要: 以下是python tutorial 的读书笔记 一.str的使用 首先我们要知道str和repr的区别。前者是的输出是为了给人阅读的,后者的输出是为了给机器阅读的。 str.ljust,str.rjust,str.center,能够让输出每列数据分别是左对齐,右对齐,和居中对齐。 print("{ 阅读全文
posted @ 2017-10-19 18:14 whatyouknow123 阅读(213) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 9 ··· 12 下一页