随笔档案「2018年6月」 - 我是冰霜

猫眼电影爬取(三)：requests+pyquery，并将数据存储到mysql数据库

摘要：还是以猫眼电影为例，这次用pyquery库进行爬取 1.简单demo，看看如何使用pyquery提取信息，并将提取到的数据进行组合 2.正式代码其实就这个例子来说，使用pyquery来提取信息是最简单省事的了，直接使用css选择器就可以把想要的数据拿到阅读全文

posted @ 2018-06-27 21:22 我是冰霜阅读(956) 评论(0) 推荐(0)

猫眼电影爬取(二)：requests+beautifulsoup，并将数据存储到mysql数据库

摘要：上一篇通过requests+正则爬取了猫眼电影榜单，这次通过requests+beautifulsoup再爬取一次(其实这个网站更适合使用beautifulsoup库爬取) 1.先分析网页源码可以看出每部电影信息都包含在一堆<dd>...</dd>标签中，所以第一步可以通过beautifulsou 阅读全文

posted @ 2018-06-26 18:48 我是冰霜阅读(1236) 评论(0) 推荐(0)

猫眼电影爬取(一)：requests+正则，并将数据存储到mysql数据库

摘要：前面讲了如何通过pymysql操作数据库，这次写一个爬虫来提取信息，并将数据存储到mysql数据库 1.爬取目标爬取猫眼电影TOP100榜单要提取的信息包括：电影排名、电影名称、上映时间、分数 2.分析网页HTML源码可以看到每部电影信息都被包裹在一对<dd>...</dd& 阅读全文

posted @ 2018-06-23 17:13 我是冰霜阅读(2055) 评论(0) 推荐(0)

使用pymysql操作数据库

摘要：学习如何使用python的pymysql模块来操作mysql数据库这里的基本用法主要借鉴了该篇博客：https://www.cnblogs.com/woider/p/5926744.html 因为这个作者总结的很全面，也很简洁，看完很容易上手一.pymysql的主要方法二.常用操作 1.查询数阅读全文

posted @ 2018-06-22 21:40 我是冰霜阅读(24285) 评论(0) 推荐(1)

在python中使用正则表达式(三)

摘要：这里主要说一下贪婪匹配和非贪婪匹配贪婪匹配：匹配尽可能多的字符；非贪婪匹配：匹配尽可能少的字符 python的正则匹配默认是贪婪匹配例子： >>> re.match(r'^(\w+)(\d*)$','abc123').groups() ('abc123', '') >>> re.match(r 阅读全文

posted @ 2018-06-18 15:03 我是冰霜阅读(542) 评论(0) 推荐(0)

启动node程序报错:event.js:183 throw er; // unhandled 'error' event

摘要：启动node程序时，报如下错误：在网上搜索相关问题原来是端口被占用导致的，找到占用端口的进程，然后杀掉就可以了 1.找到占用端口的进程方法(1)，也是我之前经常用的：lsof -i:端口号，查看该端口被哪个进程占用方法(2)：netstat -tunlp|grep 端口号 2.杀掉进程然后就阅读全文

posted @ 2018-06-12 22:23 我是冰霜阅读(4256) 评论(0) 推荐(0)

在python中使用正则表达式(二)

摘要：这一节主要学习一下compile()函数和group()方法 1. re.compile() compile 函数用于编译正则表达式，生成一个正则表达式（ Pattern ）对象，然后就可以用编译后的正则表达式去匹配字符串语法如下：>>> help(re.compile) Help on func 阅读全文

posted @ 2018-06-07 22:40 我是冰霜阅读(1909) 评论(0) 推荐(1)

在python中使用正则表达式(一)

摘要：在python中通过内置的re库来使用正则表达式，它提供了所有正则表达式的功能。一.写在前面：关于转义的问题正则表达式中用“\”表示转义，而python中也用“\”表示转义，当遇到特殊字符需要转义时，你要花费心思到底需要几个“\”，所以为了避免这个情况，墙裂推荐使用原生字符串类型(raw str 阅读全文

posted @ 2018-06-06 23:45 我是冰霜阅读(59213) 评论(2) 推荐(14)

我是冰霜

I am just a sunflower, waiting for my only sunshine.

06 2018 档案

公告