爬行的龟

2017年10月3日

摘要：实际上安装scrapy框架时，需要安装很多依赖包，因此建议用pip安装，这里我就直接使用pycharm的安装功能直接搜索scrapy安装好了。然后进入虚拟环境创建一个scrapy工程： (third_project) bigni@bigni:~/python_file/python_project 阅读全文

posted @ 2017-10-03 12:27 爬行的龟阅读(3574) 评论(0) 推荐(0)

第八篇编写spider爬取jobbole的所有文章

摘要：通过scrapy的Request和parse，我们能很容易的爬取所有列表页的文章信息。 PS:parse.urljoin（response.url，post_url）的方法有个好处,如果post_url是完整的域名，则不会拼接response.url的主域名，如果不是完整的，则会进行拼接 # -*- 阅读全文

posted @ 2017-10-03 12:25 爬行的龟阅读(1070) 评论(0) 推荐(0)

2017年10月2日

第七篇 css选择器实现字段解析

摘要： CSS选择器的作用实际和xpath的一样，都是为了定位具体的元素举例我要爬取下面这个页面的标题获取文章创建日期：获取评论数 In [49]: comment_num = response.css("a[href='#article-comment']") In [50]: comment_nu 阅读全文

posted @ 2017-10-02 09:40 爬行的龟阅读(673) 评论(0) 推荐(0)

2017年9月30日

第六篇 xpath的用法

摘要：使用pycharm debug调试效率会比较慢，因为每次调试都需要向url发送请求，等返回信息,scrapy提供一种方便调试的功能，如下： extract()方法可以取到select list里的date，text()方法可以取到内容。 PS：在chrome里，按F12看到的代码是加载完所有插件后的阅读全文

posted @ 2017-09-30 08:06 爬行的龟阅读(4034) 评论(0) 推荐(0)

2017年8月21日

爬虫主要基础知识

摘要：爬虫主要利用基础知识：scrapy vs requests + beautifulsoup 使用scrapy是一个框架，而requests+beautifulsoup都是库注：webservice（restapi）实际上也是动态网页的一种 PS：垂直领域搜索引擎，特指搜索某个领域的数据，比如汽车、阅读全文

posted @ 2017-08-21 16:35 爬行的龟阅读(261) 评论(0) 推荐(0)

2017年8月10日

在ubuntu16下安装virtualenv+virtualenvwrapper

摘要： ubuntu16已经安装好了py2和py3（自带的）我要用的是py3，所以安装virtulenv+virtualenvwrapper，我用的是pip3，使用：apt-get install python3-pip 可以完成通过pip安装virtualenv： $ pip3 install vir 阅读全文

posted @ 2017-08-10 16:43 爬行的龟阅读(747) 评论(0) 推荐(0)

2017年6月17日

git 和github简介

摘要：关于github不清楚的可以百度，在这里，可以创建一个新的仓库点击Create repository后会出现下面这些信息，其中第一块是仓库的url链接第二块是你在本地目录中创建一个READEME.md文件，然后进行初始化，在add和commit提交到分支，然后再关联仓库，最后通过push 推送阅读全文

posted @ 2017-06-17 22:04 爬行的龟阅读(655) 评论(0) 推荐(0)

2017年6月13日

git stash封存分支以及关于开发新功能的处理

摘要：有种情况，我们要修复项目的bug时，但别的分支有修改的代码，要修复的bug可能会影响（所有分支共用一个暂存区）。可以单独创建一个bug分支，用于修复和提交bug，在修改前可以先stash封存分支修改的代码。测试，首先在slave分支里修改文件：456的内容，然后执行git stash 封存slav 阅读全文

posted @ 2017-06-13 22:45 爬行的龟阅读(1739) 评论(0) 推荐(0)

2017年6月3日

git branch 分支和分支合并

摘要：一般一个项目有一个默认的分支 master 主分支，然后可以有许多个分支，在别的分支上的操作不会影响到主分支。使用git branch查看当前多多少分支以及当前处于哪个分支上；执行git branch 分支名称创建分支；执行 git checkout 分支名称切换当前分支。使用 git bra 阅读全文

posted @ 2017-06-03 23:42 爬行的龟阅读(6861) 评论(0) 推荐(0)

git 常用命令 mv rm checkout revert reset

摘要：关于上节讲的git add 时需要添加注释信息，也可以在git commit时再添加 PS：关于注释信息，因为一个项目往往由多个人协作完成，所以文件的提交和修改需要在注释信息里写清楚，否则会影响到项目的展开。 git log 命令查看commit的记录：使用git mv 【old_filenam 阅读全文

posted @ 2017-06-03 22:03 爬行的龟阅读(548) 评论(0) 推荐(0)

公告