上一页 1 ··· 5 6 7 8 9 10 11 下一页
摘要: 实际上安装scrapy框架时,需要安装很多依赖包,因此建议用pip安装,这里我就直接使用pycharm的安装功能直接搜索scrapy安装好了。 然后进入虚拟环境创建一个scrapy工程: (third_project) bigni@bigni:~/python_file/python_project 阅读全文
posted @ 2017-10-03 12:27 爬行的龟 阅读(3477) 评论(0) 推荐(0) 编辑
摘要: 通过scrapy的Request和parse,我们能很容易的爬取所有列表页的文章信息。 PS:parse.urljoin(response.url,post_url)的方法有个好处,如果post_url是完整的域名,则不会拼接response.url的主域名,如果不是完整的,则会进行拼接 # -*- 阅读全文
posted @ 2017-10-03 12:25 爬行的龟 阅读(1016) 评论(0) 推荐(0) 编辑
摘要: CSS选择器的作用实际和xpath的一样,都是为了定位具体的元素 举例我要爬取下面这个页面的标题 获取文章创建日期: 获取评论数 In [49]: comment_num = response.css("a[href='#article-comment']") In [50]: comment_nu 阅读全文
posted @ 2017-10-02 09:40 爬行的龟 阅读(661) 评论(0) 推荐(0) 编辑
摘要: 使用pycharm debug调试效率会比较慢,因为每次调试都需要向url发送请求,等返回信息,scrapy提供一种方便调试的功能,如下: extract()方法可以取到select list里的date,text()方法可以取到内容。 PS:在chrome里,按F12看到的代码是加载完所有插件后的 阅读全文
posted @ 2017-09-30 08:06 爬行的龟 阅读(3999) 评论(0) 推荐(0) 编辑
摘要: 爬虫主要利用基础知识:scrapy vs requests + beautifulsoup 使用scrapy是一个框架,而requests+beautifulsoup都是库 注:webservice(restapi)实际上也是动态网页的一种 PS:垂直领域搜索引擎,特指搜索某个领域的数据,比如汽车、 阅读全文
posted @ 2017-08-21 16:35 爬行的龟 阅读(243) 评论(0) 推荐(0) 编辑
摘要: ubuntu16已经安装好了py2和py3(自带的) 我要用的是py3,所以安装virtulenv+virtualenvwrapper,我用的是pip3,使用:apt-get install python3-pip 可以完成 通过pip安装virtualenv: $ pip3 install vir 阅读全文
posted @ 2017-08-10 16:43 爬行的龟 阅读(728) 评论(0) 推荐(0) 编辑
摘要: 关于github不清楚的可以百度, 在这里,可以创建一个新的仓库 点击Create repository后会出现下面这些信息,其中第一块是仓库的url链接 第二块是你在本地目录中创建一个READEME.md文件,然后进行初始化,在add和commit提交到分支,然后再关联仓库,最后通过push 推送 阅读全文
posted @ 2017-06-17 22:04 爬行的龟 阅读(638) 评论(0) 推荐(0) 编辑
摘要: 有种情况,我们要修复项目的bug时,但别的分支有修改的代码,要修复的bug可能会影响(所有分支共用一个暂存区)。可以单独创建一个bug分支,用于修复和提交bug,在修改前可以先stash封存分支修改的代码。 测试,首先在slave分支里修改文件:456的内容,然后执行git stash 封存slav 阅读全文
posted @ 2017-06-13 22:45 爬行的龟 阅读(1715) 评论(0) 推荐(0) 编辑
摘要: 一般一个项目有一个默认的分支 master 主分支,然后可以有许多个分支,在别的分支上的操作不会影响到主分支。使用git branch查看当前多多少分支以及当前处于哪个分支上;执行git branch 分支名称 创建分支;执行 git checkout 分支名称 切换当前分支。 使用 git bra 阅读全文
posted @ 2017-06-03 23:42 爬行的龟 阅读(6822) 评论(0) 推荐(0) 编辑
摘要: 关于上节讲的git add 时需要添加注释信息,也可以在git commit时再添加 PS:关于注释信息, 因为一个项目往往由多个人协作完成,所以文件的提交和修改需要在注释信息里写清楚,否则会影响到项目的展开。 git log 命令查看commit的记录: 使用git mv 【old_filenam 阅读全文
posted @ 2017-06-03 22:03 爬行的龟 阅读(535) 评论(0) 推荐(0) 编辑
上一页 1 ··· 5 6 7 8 9 10 11 下一页
如有错误,欢迎指正 邮箱656521736@qq.com