想54256 - 博客园

2017年12月4日

摘要：爬虫的自我修养_5 一、CrawlSpiders类简介通过下面的命令可以快速创建 CrawlSpider模板的代码： scrapy genspider -t crawl tencent tencent.com 上一个案例中，我们通过正则表达式，制作了新的url作为Request请求参数，现在我们阅读全文

posted @ 2017-12-04 21:42 想54256 阅读(2676) 评论(0) 推荐(0) 编辑

2017年12月3日

python——Scrapy框架简介、内置选择器、管道文件、爬虫模块中的spider类

摘要：爬虫的自我修养_4 一、Scrapy 框架简介 Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛。框架的力量，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常之方便。 Scrapy 使用了 Twisted[' 阅读全文

posted @ 2017-12-03 20:02 想54256 阅读(864) 评论(0) 推荐(0) 编辑

2017年12月2日

python——BeautifulSoup4解析器，JSON与JsonPATH，多线程爬虫，动态HTML处理

摘要：爬虫的自我修养_3 一、CSS 选择器：BeautifulSoup4 和 lxml 一样，Beautiful Soup 也是一个HTML/XML的解析器，主要的功能也是如何解析和提取 HTML/XML 数据。 lxml 只会局部遍历，而Beautiful Soup 是基于HTML DOM的，会载入整阅读全文

posted @ 2017-12-02 19:03 想54256 阅读(7784) 评论(0) 推荐(1) 编辑

2017年11月30日

python——爬虫引擎，re模块，lxml库

摘要：爬虫的自我修养_2 一、Handler处理器和自定义Opener（引擎们） opener是 urllib2.OpenerDirector 的实例，我们之前一直都在使用的urlopen，它是一个特殊的opener（也就是模块帮我们构建好的）。但是基本的urlopen()方法不支持代理、cooki 阅读全文

posted @ 2017-11-30 18:41 想54256 阅读(925) 评论(0) 推荐(0) 编辑

爬虫——爬虫模块的基本使用+获取post，get，ajax方式加载的网页的数据

摘要：一、爬虫如何抓取网页数据：网页三大特征： -1. 网页都有自己唯一的URL（统一资源定位符）来进行定位 -2. 网页都使用HTML （超文本标记语言）来描述页面信息。 -3. 网页都使用HTTP/HTTPS（超文本传输协议）协议来传输HTML数据。爬虫的设计思路： -1. 首先确定需要爬取的网页阅读全文

posted @ 2017-11-30 12:36 想54256 阅读(3751) 评论(0) 推荐(0) 编辑

2017年11月29日

Python——数据结构（栈，队列，链表）

摘要：数据结构程序=数据结构+算法数据结构就是设计数据以何种方式组织并存储在计算机中。列表、集合与字典等都是一种数据结构。小Tips：列表中的元素是怎样存储的，操作的时间复杂度是多少？栈栈(Stack)是一个数据集合，可以理解为只能在一端进行插入或删除操作的列表。栈的特点：后进先出栈的基本操阅读全文

posted @ 2017-11-29 20:43 想54256 阅读(891) 评论(0) 推荐(0) 编辑

2017年11月28日

python——算法（时间复杂度，空间复杂度，二分查找，排序们）

摘要：算法（Algorithm）概念：一个计算过程，解决问题的方法递归的两大特点： 1、自己调用自己 2、有穷性（python默认只能递归999次）自己修改递归深度：sys.setrecursionlimit(100000) 时间复杂度时间复杂度是一个估计的时间（正常人都说这个活还有几个月就完成了，没阅读全文

posted @ 2017-11-28 21:48 想54256 阅读(711) 评论(0) 推荐(0) 编辑

2017年11月26日

Django——组合搜索，jsonp，xss过滤（bs4），单例模式

摘要：组合搜索方法一： models.py views.py url.py html 1 url(r'^article-(?P<article_type_id>\d+)-(?P<category_id>\d+).html', views.article), 1 from django.db import 阅读全文

posted @ 2017-11-26 20:16 想54256 阅读(345) 评论(0) 推荐(0) 编辑

2017年11月23日

Linux——用户和组管理，文件权限管理，文件查找（find）

摘要：一、用户和组相关的管理命令 1）创建用户：useradd 命令格式：useradd [options] LOGIN 选项： -u UID: [UID_MIN, UID_MAX], 定义在/etc/login.defs -g GID：指明用户所属基本组，可为组名，也可以GID； -c "COMMENT 阅读全文

posted @ 2017-11-23 15:04 想54256 阅读(1595) 评论(0) 推荐(0) 编辑

2017年11月20日

Linux——bash的编程环境

摘要： bash的编程环境 shell脚本：文本文件文件的开头要写上解释程序的路径： #!/bin/bash #!/usr/bin/python #!/usr/bin/perl 运行脚本： 1、给予执行权限，通过具体的文件路径（./xxx）指定文件执行； 2、直接运行解释器，将脚本作为解释器程序的参数运行阅读全文

posted @ 2017-11-20 11:21 想54256 阅读(207) 评论(0) 推荐(0) 编辑

公告