随笔分类 -  爬虫

摘要:xpath解析 定义: XPath即为XML路径语言,它是一种用来确定XML文档中某部分位置的语言,同样适用于HTML文档的检索 示例HTML代码 <ul class="CarList"> <li class="bjd" id="car_001" href="http://www.bjd.com/" 阅读全文
posted @ 2020-01-09 10:28 hoo_o 阅读(395) 评论(0) 推荐(0) 编辑
摘要:# 地址 电影天堂 - 2019年新片精品 - 更多# 目标 电影名称、下载链接 # 分析*********一级页面需抓取*********** 1、电影名称 2、电影链接 *********二级页面需抓取*********** 1、下载链接 实现步骤 1、确定响应内容中是否存在所需抓取数据 2、找 阅读全文
posted @ 2020-01-07 09:48 hoo_o 阅读(2121) 评论(0) 推荐(0) 编辑
摘要:在数据库中建库建表 # 连接到mysql数据库 mysql -h127.0.0.1 -uroot -p123456 # 建库建表 create database maoyandb charset utf8; use maoyandb; create table filmtab( name varch 阅读全文
posted @ 2020-01-06 15:52 hoo_o 阅读(716) 评论(0) 推荐(0) 编辑
摘要:csv文件作用 将爬取的数据存放到本地的csv文件中 使用流程 # 1、导入模块 # 2、打开csv文件 # 3、初始化写入对象 # 4、写入数据(参数为列表) import csv with open('film.csv','w') as f: writer = csv.writer(f) wri 阅读全文
posted @ 2020-01-06 14:48 hoo_o 阅读(729) 评论(0) 推荐(0) 编辑
摘要:一、使用正则表达式匹配 from urllib import request import re import time import random from useragents import ua_list class MaoyanSpider(object): def __init__(sel 阅读全文
posted @ 2020-01-06 10:58 hoo_o 阅读(366) 评论(0) 推荐(0) 编辑
摘要:import re html = ''' <div><p>九霄龙吟惊天变</p></div> <div><p>风云际汇潜水游</p></div> ''' # 贪婪匹配 pattern = re.compile('<div><p>.*</p></div>',re.S) r_list = pattern 阅读全文
posted @ 2020-01-06 10:55 hoo_o 阅读(266) 评论(0) 推荐(0) 编辑
摘要:这个爬虫代码结构已经比较清晰了,以后的爬虫都可以套用这个模板 from urllib import request,parse import time import random from useragents import ua_list class BaiduSpider(object): de 阅读全文
posted @ 2020-01-06 10:47 hoo_o 阅读(580) 评论(0) 推荐(0) 编辑
摘要:看了有两三个爬虫程序了,就自己写了一个简单的爬虫程序感受一下,爬取的是:猫眼电影-榜单-热映口碑榜11月6号的数据 from urllib import request import re def getHtml(url, ua_agent='Mozilla/5.0 (Windows NT 10.0 阅读全文
posted @ 2019-11-06 16:13 hoo_o 阅读(254) 评论(0) 推荐(0) 编辑
摘要:import urllib from urllib import request #urllib.parse.urlencode() # 完成一次get请求 headers = {"User-Agent":"Mozilla/5.0 (Windows NT 6.1; Win64; x64) Apple 阅读全文
posted @ 2019-11-05 17:12 hoo_o 阅读(319) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示