摘要: (一) 分析页面 访问今日头条页面(https://www.toutiao.com/)在输入框中输入要搜索的关键字,搜索出的页面点击图集。要爬取的就是这里的所有图集。 查看页面的URL可以发现这是一个POST请求,然后我们就检查页面找到POST请求包,进行分析。 这个就是POST请求服务器返回的re 阅读全文
posted @ 2018-07-07 17:01 机房名苑 阅读(1412) 评论(0) 推荐(0)
摘要: # coding=utf-8 import requests from lxml import etree ''' 爬取猫眼网站TOP100的电影数据并写为json格式文件 ''' # 通过起始url获取要爬取url列表 def get_url(url): url_list = [url] for num in range(10, 91, 10): data =... 阅读全文
posted @ 2018-07-06 16:25 机房名苑 阅读(1245) 评论(0) 推荐(0)
摘要: python,编码方式,encode,decode 阅读全文
posted @ 2018-07-02 17:47 机房名苑 阅读(187) 评论(0) 推荐(0)
摘要: '''download_html:接受url,返回html和BeautifulSoup实例spider接受html返回url和数据process_data:处理字符串及保存数据controller:控制,调用''' # coding=utf-8 __author__ = 'Leslie' from 阅读全文
posted @ 2018-06-28 11:16 机房名苑 阅读(219) 评论(0) 推荐(1)