python爬虫 - 随笔分类 - 佳星辰

python3爬取淘宝商品(失效)

摘要：最近有人反映淘宝的搜索功能要登录才能用，原先的直接爬取的方法挂了。稍微把之前的代码修改了一下，登录采用最简单的复制cookie来解决。顺便说一下，这只是根据搜索的的索引界面获取的信息，并未深入的获取每个具体商品的信息。为了以后有拓展空间，便于爬取详细的商品信息，我顺便把详情页的URL拿下来了。淘阅读全文

posted @ 2018-11-12 19:10 佳星辰阅读(2723) 评论(3) 推荐(0)

Python获取最新电影的信息

摘要：这次将从电影天堂获取最新的电影的详细信息，这里电影的信息罗列的比较详细。本来只是想获取电影的迅雷链接，然后用迅雷去下载。但看到这里的电影的信息比较完整和详细，忍不住把所有信息都爬取下来了。下图是《猩球崛起3》的简介，可以看到信息还是很多的。主要代码如下：获取的结果的如下：阅读全文

posted @ 2017-10-15 22:56 佳星辰阅读(519) 评论(0) 推荐(0)

Python3爬虫爬取淘宝商品数据

摘要：这次的主要的目的是从淘宝的搜索页面获取商品的信息。其实分析页面找到信息很容易，页面信息的存放都是以静态的方式直接嵌套的页面上的，很容易找到。主要困难是将信息从HTML源码中剥离出来，数据和网页源码结合的很紧密，剥离数据有一定的难度。然后将获取的信息写入excel表格保存起来，这次只爬取了前面10页阅读全文

posted @ 2017-09-08 13:36 佳星辰阅读(36338) 评论(15) 推荐(1)

python3爬取高清壁纸(2)

摘要：上次只是爬取一个专辑的图片，这次要爬取一整个页面的所有专辑的图片。在上次的代码的基础上进行修改就行了，从专辑的索引页面开始，爬取该页面上所有的专辑的链接，再套用上次的代码就行了。若要爬取多个页面只需在外围套上一个循环就可以了。代码如下：阅读全文

posted @ 2017-08-19 14:55 佳星辰阅读(488) 评论(0) 推荐(0)

python3爬取高清壁纸(1)

摘要：这次爬取的目标是：美桌网首页 > 桌面壁纸 > 卡通动漫类别下的壁纸. 我们先随机选取一个专辑来爬( http://www.win4000.com/wallpaper_detail_54520.html ). 后面再把整个卡通动漫类别的所有专辑的壁纸爬下来。代码如下：注：如果是Windows下阅读全文

posted @ 2017-08-10 10:20 佳星辰阅读(1465) 评论(0) 推荐(0)

Python3基础

摘要：一、Requests模块：用于发送网络请求使用requests方法后，会返回一个response对象，其存储了服务器响应的内容: 1.传递参数: Requests允许你使用params关键字参数，以一个字符串字典来提供参数以手工构建URL 2.定制请求头: 如果你想为请求添加HTTP头部，只要简单阅读全文

posted @ 2017-08-09 15:08 佳星辰阅读(252) 评论(0) 推荐(0)

正则表达式的使用基础

摘要：正则表达式是一种匹配模式，使用的好的话能省去很多的麻烦，而且匹配的精度要比BeautifulSoup高很多。下面这张图列出了使用正则表达式的一些应该注意的基础问题。阅读全文

posted @ 2017-08-08 14:42 佳星辰阅读(129) 评论(0) 推荐(0)

BeautifulSoup的基本使用

摘要：一、将一段文档传入BeautifulSoup的构造方法，得到一个文档的对象：二、Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种: Tag , NavigableString , BeautifulSoup , Comme 阅读全文

posted @ 2017-08-08 14:27 佳星辰阅读(383) 评论(0) 推荐(0)

python3爬取电影数据

摘要：爬取电影票房数据，用于统计建模分析。目标网站为电影票房数据库(http://58921.com/alltime). 基本的爬取静态网站的技术，模拟登陆使用的是最简单的cookies。(这种模拟登陆的方式虽然简单但有很大的局限性，时效性比较短，也许两三天后就失效了，或者网页改版一点也会导致失效。最好的阅读全文

posted @ 2017-08-02 09:11 佳星辰阅读(2872) 评论(0) 推荐(0)

佳星辰

随笔分类 - python爬虫

公告