机房名苑

2018年7月7日

摘要： (一) 分析页面访问今日头条页面（https://www.toutiao.com/）在输入框中输入要搜索的关键字，搜索出的页面点击图集。要爬取的就是这里的所有图集。查看页面的URL可以发现这是一个POST请求，然后我们就检查页面找到POST请求包，进行分析。这个就是POST请求服务器返回的re 阅读全文

posted @ 2018-07-07 17:01 机房名苑阅读(1464) 评论(0) 推荐(0)

2018年7月6日

爬取猫眼网站TOP100的电影数据并写为json格式文件

摘要： # coding=utf-8 import requests from lxml import etree ''' 爬取猫眼网站TOP100的电影数据并写为json格式文件 ''' # 通过起始url获取要爬取url列表 def get_url(url): url_list = [url] for num in range(10, 91, 10): data =... 阅读全文

posted @ 2018-07-06 16:25 机房名苑阅读(1262) 评论(0) 推荐(0)

2018年7月2日

python中编码方式的学习笔记

摘要： python，编码方式，encode，decode 阅读全文

posted @ 2018-07-02 17:47 机房名苑阅读(194) 评论(0) 推荐(0)

2018年6月28日

使用urllib&BeautifulSoup爬取盗墓笔记网站所有书籍

摘要： '''download_html:接受url，返回html和BeautifulSoup实例spider接受html返回url和数据process_data:处理字符串及保存数据controller:控制，调用''' # coding=utf-8 __author__ = 'Leslie' from 阅读全文

posted @ 2018-06-28 11:16 机房名苑阅读(227) 评论(0) 推荐(1)

公告