短戈行 - 博客园

2020年10月6日

摘要：全面支持解析JavaScript! CSS 选择器 (jQuery风格, 感谢PyQuery). XPath 选择器, for the faint at heart. 自定义user-agent (就像一个真正的web浏览器). 自动追踪重定向. 连接池与cookie持久化. 令人欣喜的请求体验，魔阅读全文

posted @ 2020-10-06 22:33 短戈行阅读(201) 评论(0) 推荐(0)

1.7XPath

摘要： 1、什么是XPath XPath在Python的爬虫学习中，起着举足轻重的地位，对比正则表达式 re两者可以完成同样的工作，实现的功能也差不多，但XPath明显比re具有优势，在网页分析上使re退居二线。 XPath是什么？全称为XML Path Language 一种小型的查询语言说道XPath 阅读全文

posted @ 2020-10-06 22:31 短戈行阅读(107) 评论(0) 推荐(0)

1.6Selenium XPath

摘要： 1、selenium是什么呢？ selenium最初是一个自动化测试工具，而爬虫中使用它主要是为了解决requests无法执行javaScript代码的问题。它可以做什么呢？它可以用几行代码，控制浏览器，做出自动打开、输入、点击等操作，就像是有一个真正的用户在操作一样。 selenium允许让人去阅读全文

posted @ 2020-10-06 22:19 短戈行阅读(127) 评论(0) 推荐(0)

1.5cookies

摘要： Cookie简介 HTTP协议是无状态的协议，用户浏览服务器上的内容，只需要发送页面请求，服务器返回内容。对于服务器来说，并不关心，也并不知道是哪个用户的请求。对于一般浏览性的网页来说，没有任何问题。但是，现在很多的网站，是需要用户登录的。以淘宝为例：比如说某个用户想购买一个产品，当点击 “ 阅读全文

posted @ 2020-10-06 21:37 短戈行阅读(101) 评论(0) 推荐(0)

1.4Beautiful Soup

摘要： Beautiful Soup 是一个可以从 HTML 或 XML 文件中提取数据的 Python 库 Beautiful Soup简介 Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简阅读全文

posted @ 2020-10-06 21:18 短戈行阅读(193) 评论(0) 推荐(0)

1.3Requests

摘要： Requests 基本使用 python发送请求时，可以用requests模块，这个模块不是内置模块需要安装 pip install requests Requests库的七个主要方法：方法描述 requests.request() 构造一个请求，支撑一下各方法的基础方法 requests.g 阅读全文

posted @ 2020-10-06 01:17 短戈行阅读(144) 评论(0) 推荐(0)

2020年10月5日

1.2爬虫的流程

摘要：爬虫的流程网络爬虫的流程其实非常简单主要可以分为四部分：一、发起请求通过HTTP库向目标站点发起请求，即发送一个Request，请求可以包含额外的headers、data等信息，然后等待服务器响应。这个请求的过程就像我们打开浏览器，在浏览器地址栏输入网址：www.baidu.com，然后点击阅读全文

posted @ 2020-10-05 23:49 短戈行阅读(466) 评论(0) 推荐(0)

1.1爬虫能干什么

摘要：一、爬虫趋势随着大数据时代的来临，网络爬虫在互联网中的地位越来越重要互联网中的数据是海量的，网络爬虫可以为我们自动高效的获取网络中对我们有用的信息网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者）就是一种按照一定的规则，自动得爬取网络信息这些规则我们称之为阅读全文

posted @ 2020-10-05 23:40 短戈行阅读(1320) 评论(0) 推荐(0)

爬虫相关目录

摘要：阿萨德> 阅读全文

posted @ 2020-10-05 23:39 短戈行阅读(100) 评论(0) 推荐(0)

5个SpringBoot 项目

摘要：不得不佩服 Spring Boot 的生态如此强大，今天我给大家推荐几款 Gitee 上优秀的后台开源版本的管理系统，小伙伴们再也不用从头到尾撸一个项目了，简直就是接私活，挣钱的利器啊。 SmartAdmin 我们开源一套漂亮的代码和一套整洁的代码规范，让大家在这浮躁的代码世界里感受到一股把代码写好阅读全文

posted @ 2020-10-05 15:42 短戈行阅读(415) 评论(0) 推荐(0)

青山

Simple is better than complex.

公告