06 2018 档案

摘要:还是以猫眼电影为例,这次用pyquery库进行爬取 1.简单demo,看看如何使用pyquery提取信息,并将提取到的数据进行组合 2.正式代码 其实就这个例子来说,使用pyquery来提取信息是最简单省事的了,直接使用css选择器就可以把想要的数据拿到 阅读全文
posted @ 2018-06-27 21:22 我是冰霜 阅读(943) 评论(0) 推荐(0)
摘要:上一篇通过requests+正则爬取了猫眼电影榜单,这次通过requests+beautifulsoup再爬取一次(其实这个网站更适合使用beautifulsoup库爬取) 1.先分析网页源码 可以看出每部电影信息都包含在一堆<dd>...</dd>标签中,所以第一步可以通过beautifulsou 阅读全文
posted @ 2018-06-26 18:48 我是冰霜 阅读(1204) 评论(0) 推荐(0)
摘要:前面讲了如何通过pymysql操作数据库,这次写一个爬虫来提取信息,并将数据存储到mysql数据库 1.爬取目标 爬取猫眼电影TOP100榜单 要提取的信息包括:电影排名、电影名称、上映时间、分数 2.分析网页HTML源码 可以看到每部电影信息都被包裹在一对<dd>...</dd& 阅读全文
posted @ 2018-06-23 17:13 我是冰霜 阅读(2022) 评论(0) 推荐(0)
摘要:学习如何使用python的pymysql模块来操作mysql数据库 这里的基本用法主要借鉴了该篇博客:https://www.cnblogs.com/woider/p/5926744.html 因为这个作者总结的很全面,也很简洁,看完很容易上手 一.pymysql的主要方法 二.常用操作 1.查询数 阅读全文
posted @ 2018-06-22 21:40 我是冰霜 阅读(24246) 评论(0) 推荐(1)
摘要:这里主要说一下贪婪匹配和非贪婪匹配 贪婪匹配:匹配尽可能多的字符; 非贪婪匹配:匹配尽可能少的字符 python的正则匹配默认是贪婪匹配 例子: >>> re.match(r'^(\w+)(\d*)$','abc123').groups() ('abc123', '') >>> re.match(r 阅读全文
posted @ 2018-06-18 15:03 我是冰霜 阅读(537) 评论(0) 推荐(0)
摘要:启动node程序时,报如下错误: 在网上搜索相关问题原来是端口被占用导致的,找到占用端口的进程,然后杀掉就可以了 1.找到占用端口的进程 方法(1),也是我之前经常用的:lsof -i:端口号,查看该端口被哪个进程占用 方法(2):netstat -tunlp|grep 端口号 2.杀掉进程 然后就 阅读全文
posted @ 2018-06-12 22:23 我是冰霜 阅读(4234) 评论(0) 推荐(0)
摘要:这一节主要学习一下compile()函数和group()方法 1. re.compile() compile 函数用于编译正则表达式,生成一个正则表达式( Pattern )对象,然后就可以用编译后的正则表达式去匹配字符串 语法如下:>>> help(re.compile) Help on func 阅读全文
posted @ 2018-06-07 22:40 我是冰霜 阅读(1888) 评论(0) 推荐(1)
摘要:在python中通过内置的re库来使用正则表达式,它提供了所有正则表达式的功能。 一.写在前面:关于转义的问题 正则表达式中用“\”表示转义,而python中也用“\”表示转义,当遇到特殊字符需要转义时,你要花费心思到底需要几个“\”,所以为了避免这个情况,墙裂推荐使用原生字符串类型(raw str 阅读全文
posted @ 2018-06-06 23:45 我是冰霜 阅读(59147) 评论(2) 推荐(14)