2020 年 1月随笔档案 - hoo_o

xpath解析以及lxml解析库

摘要：xpath解析定义： XPath即为XML路径语言，它是一种用来确定XML文档中某部分位置的语言，同样适用于HTML文档的检索示例HTML代码 <ul class="CarList"> <li class="bjd" id="car_001" href="http://www.bjd.com/" 阅读全文

posted @ 2020-01-09 10:28 hoo_o 阅读(395) 评论(0) 推荐(0) 编辑

python sort()和sorted()的不同

摘要：对列表中的元素进行排序，有两种常用方法： 1. lst = [3, 5, 2, 1, 7] lst.sort() print(lst) 2. lst = [3, 5, 2, 1, 7] lst = sorted(lst) print(lst) 虽然二者都可以实现排序，也都可以设定 key（排序函数）阅读全文

posted @ 2020-01-07 14:27 hoo_o 阅读(516) 评论(0) 推荐(0) 编辑

爬取电影天堂-二级页面抓取

摘要：# 地址电影天堂 - 2019年新片精品 - 更多# 目标电影名称、下载链接 # 分析*********一级页面需抓取*********** 1、电影名称 2、电影链接 *********二级页面需抓取*********** 1、下载链接实现步骤 1、确定响应内容中是否存在所需抓取数据 2、找阅读全文

posted @ 2020-01-07 09:48 hoo_o 阅读(2121) 评论(0) 推荐(0) 编辑

爬取猫眼电影榜单TOP100榜-以mysql数据库保存

摘要：在数据库中建库建表 # 连接到mysql数据库 mysql -h127.0.0.1 -uroot -p123456 # 建库建表 create database maoyandb charset utf8; use maoyandb; create table filmtab( name varch 阅读全文

posted @ 2020-01-06 15:52 hoo_o 阅读(716) 评论(0) 推荐(0) 编辑

爬取猫眼电影榜单TOP100榜-以csv文件保存

摘要：csv文件作用将爬取的数据存放到本地的csv文件中使用流程 # 1、导入模块 # 2、打开csv文件 # 3、初始化写入对象 # 4、写入数据(参数为列表) import csv with open('film.csv','w') as f: writer = csv.writer(f) wri 阅读全文

posted @ 2020-01-06 14:48 hoo_o 阅读(729) 评论(0) 推荐(0) 编辑

爬取猫眼电影榜单TOP100榜-以命令行输出

摘要：一、使用正则表达式匹配 from urllib import request import re import time import random from useragents import ua_list class MaoyanSpider(object): def __init__(sel 阅读全文

posted @ 2020-01-06 10:58 hoo_o 阅读(366) 评论(0) 推荐(0) 编辑

爬虫贪婪匹配以及非贪婪匹配

摘要：import re html = ''' <div><p>九霄龙吟惊天变</p></div> <div><p>风云际汇潜水游</p></div> ''' # 贪婪匹配 pattern = re.compile('<div><p>.*</p></div>',re.S) r_list = pattern 阅读全文

posted @ 2020-01-06 10:55 hoo_o 阅读(266) 评论(0) 推荐(0) 编辑

爬取百度贴吧

摘要：这个爬虫代码结构已经比较清晰了，以后的爬虫都可以套用这个模板 from urllib import request,parse import time import random from useragents import ua_list class BaiduSpider(object): de 阅读全文

posted @ 2020-01-06 10:47 hoo_o 阅读(580) 评论(0) 推荐(0) 编辑

python 面试

摘要：新手需掌握技能点 1.谈谈装饰器,迭代器,yield,内存管理等装饰器可以拓展原来已经存在的一个函数或者类，而不用在函数里面或者在类里面修改，装饰器的本质也是一个函数，但是用到了闭包了这个机制而闭包就是在外层函数里定义了一个内层函数，外层函数返回内层函数的引用，内层函数里面使用到了外层函数的临时阅读全文

posted @ 2020-01-03 15:02 hoo_o 阅读(332) 评论(0) 推荐(0) 编辑

python的一些小知识点

摘要：1.用format格式化字符串比%s,%d应该要好用具体可以看https://www.runoob.com/python/att-string-format.html 举个栗子： print("{}执行用了{}ms".format(func.__name__,time.time() - start 阅读全文

posted @ 2020-01-03 10:36 hoo_o 阅读(139) 评论(0) 推荐(0) 编辑

python 单例模式的两种实现方式

摘要：转载自：https://www.cnblogs.com/huchong/p/8244279.html 单例模式（Singleton Pattern）是一种常用的软件设计模式，该模式的主要目的是确保某一个类只有一个实例存在。当你希望在整个系统中，某个类只能出现一个实例时，单例对象就能派上用场。比如，阅读全文

posted @ 2020-01-02 10:40 hoo_o 阅读(505) 评论(0) 推荐(0) 编辑

01 2020 档案

公告

积分与排名

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论