路飞学城-python爬虫密训-第一章

（一）学习体会

通过本章学习让我初步打开python爬虫的大门，觉得自己以前复制黏贴是有多low。当然由于对web网页编程了解甚少，没有办法一气呵成去爬取想要东西。由于这几天时间有限，先看懂视频中调用方式，之后要不上web相关知识才可以更加有针对性去获取自己想要的信息，才能做到举一反三。

（二）知识点总结

1.爬虫介绍，什么是爬虫？

编写程序，根据URL获取网站的信息（百度提交入口）

2.爬取汽车之家新闻

主要步骤如下：

1）伪造浏览器向某个地址发送HTTP请求，获取返回的字符串

pip3 install requests 加载requests模块

主要代码：

下载页面

import requests

ret=requests.get(url="")

ret=encoding=ret.apparent_encoding

2)bs4解析HTML格式的字符串

pip3 install beautifulsoup4 加载bs4模块

主要代码：

解析：获取想要的指定内容

from bs4 import BeautifulSoup

soup（对象）=BeautifulSoup（ret.text,"html.parser")

div=soup.find(name="div",id=" ")

print(div)

li_list(列表）=div.find_all(name='i1‘）

print（li_list）

for li in li_list：

h3=li.find(name='h3')

if not h3:

continue

3.自动登陆抽屉并点赞

主要使用requests模块中get、post、url、headers、data、cookies参数

主要设计代码思路：

1）先访问抽屉新热榜，获取cookie（未授权）

2）发送用户名和密码认证+cookie（未授权）

3）解析点赞行为发生过程

进一步加深：如何获取当页所有新闻以及多页面新闻

主要思路:主要是用for循环以及在url网页地址加上%s %nid 或者%s %page_num

老师也提过递归也可以做，希望以后自己熟悉之后可以试一试

4.requests模块总结

主要用到参数：

url：地址 params：url中传入参数

headers：请求头

cookies：cookie

data：数据

proxies：封IP,用代理

requests.get(url="，params={}，headers={},cookies={})

requests.post(url="，params={}，data={},headers={},cookies={})

json参数主要作用

data=json.dumps({})

param files参数：上传文件

param timeout 参数：超时时间

auth参数：基本认证

stream参数：下载大文件时

cert参数：证书（小的网站，有https：网站不需要）

verify：确认

当然详细可以参考线下笔记，这里主要记录的是思路与要点

posted @ 2018-07-05 12:07 christy耀阅读(161) 评论(0) 编辑收藏举报

刷新页面返回顶部

christy耀

路飞学城-python爬虫密训-第一章

公告