养一只小爬虫 - 随笔分类 - 星涅爱别离

web scraper

摘要：参考：https://sspai.com/u/skychx/updates https://www.jianshu.com/p/76cad8e963b5 :nth-of-type(-n+100) 元素名后加个 nth-of-type(-n+100)，暂时只抓取前 100 条数据。 :nth-of-t 阅读全文

posted @ 2021-05-16 23:16 星涅爱别离阅读(509) 评论(0) 推荐(0) 编辑

selenium操作搭建好平台

摘要：在上一篇我们下载好相应的driver之后，将这个driver放入到变量中去。 Mac下/usr/local目录默认是对于Finder是隐藏，如果需要到/usr/local下去，打开Finder，然后使用command+shift+G，在弹出的目录中填写/usr/local就可以了。测试一下 fro 阅读全文

posted @ 2020-07-30 16:20 星涅爱别离阅读(165) 评论(0) 推荐(0) 编辑

chromedriver最新下载-2020

摘要：chrome版本 chromedriver版本 83.0.4103.39 83 83.0.4103.14 83 81.0.4044.138 81 81.0.4044.69 81 81.0.4044.20 81 80.0.3987.106 80 80.0.3987.16 80 79.0.3945.36 阅读全文

posted @ 2020-07-30 15:16 星涅爱别离阅读(2780) 评论(0) 推荐(0) 编辑

拉勾网教育课程《52讲轻松搞定爬虫》笔记(最近有点忙，过一整子补上后续)

摘要：https://kaiwu.lagou.com/ 1。http基本原理 URI URLURN 超文本 HTTP/HTTPS http请求过程 iitiator请求源 Content-Type互联网媒体类型（提交数据的方式） Expires响应的过期时间 Host：用于指定请求资源的主机 IP 和端口阅读全文

posted @ 2020-04-30 21:49 星涅爱别离阅读(578) 评论(0) 推荐(0) 编辑

scrapy基本的流程糗事百科

摘要：https://www.cnblogs.com/c-x-a/p/9889623.html 创建scrapy工程 1、scrapy startproject xxx xxx就是你的项目名，这里我们给我们的项目起名qiushibaike。然后我们会发现了多了一个文件名为qiushibaike的文件夹阅读全文

posted @ 2019-01-29 22:21 星涅爱别离阅读(180) 评论(0) 推荐(0) 编辑

crawler碎碎念4 关于python requests、Beautiful Soup库、SQLlite的基本操作

摘要：Requests 传递参数二进制数据 json处理原始数据处理提交表单重定向和重定向历史网站跳转的时候跟踪用代理 Beautiful Soup Htmlparser html格式的尽量不要用xml的方式去处理，因为html可能格式不完整 sqlite3 mySQL 需要指定mysql:h 阅读全文

posted @ 2019-01-29 21:09 星涅爱别离阅读(234) 评论(0) 推荐(0) 编辑

另类爬取表格数据

摘要：代码很简单但是实现的内容可不简单,第一行导入pandas包,第二行的read_html核心功能实现是调用requests然后解析table标签里的每个td的数据最后生成一个list对象里面是dataframe对象。所以通过小标0获取它的第一个dataframe数据，既然是dateframe我们就可以阅读全文

posted @ 2019-01-29 21:07 星涅爱别离阅读(277) 评论(0) 推荐(0) 编辑

打包一份py给大家用！！！

摘要：其他打包方式https://blog.csdn.net/lzy98/article/details/83246281?depth_1-utm_source=distribute.pc_relevant_t0.none-task-blog-BlogCommendFromMachineLearnPai2 阅读全文

posted @ 2018-11-11 12:58 星涅爱别离阅读(198) 评论(0) 推荐(0) 编辑

网络爬虫：爬取动态网页

摘要：为空，这是因为保存在js里面了移除 var data= 因为在获取时字符串前缀是包含var data=的其不符合json数据格式因此转化时需将其从请求内容中移除阅读全文

posted @ 2018-10-21 10:27 星涅爱别离阅读(184) 评论(0) 推荐(0) 编辑

crawler碎碎念6 豆瓣爬取操作之获取数据

摘要：import requests from lxml import etree s = requests.Session() for id in range(0,251,25): url ='https://movie.douban.com/top250/?start-'+str(id) r = s. 阅读全文

posted @ 2018-10-21 10:27 星涅爱别离阅读(152) 评论(0) 推荐(0) 编辑

鉴于崔庆才大大的对于 beautifulsoup 的再理解

摘要：源地址看 attrs 还可以这样，利用get方法，传入属性的名称，二者是等价的阅读全文

posted @ 2018-10-21 10:26 星涅爱别离阅读(206) 评论(0) 推荐(0) 编辑

Selenium的简单使用

摘要：selenium的使用对于新手来说十分友好，因为他避开了如今网络中的异步加载抓取的困扰，使得我们大部分的时间可以用于提取信息和存储中，下面就简单的列一些使用的代码，希望给同样初学的你有一定的参考价值。这里的话你可以替换着找一些合适的网站试一下，运行的时候会自动弹出测试的浏览器（这里是谷歌浏览器），阅读全文

posted @ 2018-10-21 09:51 星涅爱别离阅读(194) 评论(0) 推荐(0) 编辑

crawler碎碎念5 豆瓣爬取操作之登录练习

摘要：但是我们也发现每一次登陆都要输入密码和账户，还要验证，这也实在是太麻烦了，所以可以通过cookies，这就是我们常说的那些记住当前网址的密码关于上面的那个爬虫，爬出来的其实是验证码的图片，还需要手动打开然后识别图片里面的数字再手动输入，这个其实也是很麻烦的这里先给出思路以后验证（如果还记得的呼哈阅读全文

posted @ 2018-09-25 23:06 星涅爱别离阅读(132) 评论(0) 推荐(0) 编辑

crawler 听课笔记碎碎念 1 初步了解各种选择器极其简单的使用

摘要：css中身份证 id对应# 衣服 class对应 . 图片 pyquery。。。as pq html= request.get(url=''.....'') doc=pq(html) doc("#dq_list > li").items() tems()拿到所有子元素 for item in it 阅读全文

posted @ 2018-09-24 22:52 星涅爱别离阅读(267) 评论(0) 推荐(0) 编辑

crawler 听课笔记碎碎念 2 一些爬虫须知的基本常识和流程

摘要：html的宗旨： <标签属性=”属性的值“></标签> 只是对于文本的一种解释划分吧 dom的宗旨：就是一个大数组，处理方便，效率低 xml <node attr=value>...</node> html是它的子集，树结构主要注意节点关系 json 类似xml,对JavaScript友好 m 阅读全文

posted @ 2018-09-22 16:37 星涅爱别离阅读(157) 评论(0) 推荐(0) 编辑

crawler 听课笔记碎碎念 3 关于python的细枝末节的回顾复习

摘要：和廖雪峰大神的教程学了几遍后，还是出现了许多不足，于是就做一些回顾，列出一些python的细节问题，有一些就提一下，如果发现不清楚的话还请移步https://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e54 阅读全文

posted @ 2018-09-22 16:35 星涅爱别离阅读(123) 评论(0) 推荐(0) 编辑

最让人头疼的清洗数据过程----选择合适的方式快速命中所需的数据

摘要：当我们解析网页后，往往面对繁杂的源代码而无从下手，有时候明明知道我们想要的数据就在里面，可是应该如何把冗余的部分去除而只保留我们想要的那一个部分呢在这里和大家一起学习一下选择的方法 1、正则表达式真的是无奈之举的时候才会想到要去正则，因为它除非格式标准，否则每次搜索都要重新的绘制pattern 阅读全文

posted @ 2018-09-14 21:58 星涅爱别离阅读(318) 评论(0) 推荐(0) 编辑

利用小虫虫做一枚合格宅男，果然牡丹花下做鬼也风流

摘要：一到开学季，校园里面又开始散发着爱情的酸腐，与其一个人在寝室默默地哭泣，不如上网看看比外面更漂亮的妹子！嗯，想到这，我忍不住打开了http://jandan.net/ooxx，捏着手中的精灵球，好，今天的少女图鉴就从煎蛋网开始吧！！！冲鸭打开网页，目标定格在了最后一页先用f12看一下发现了，阅读全文

posted @ 2018-09-04 16:40 星涅爱别离阅读(547) 评论(0) 推荐(0) 编辑

开学第一只虫虫，看看新学期有什么好看的书吧

摘要：开学啦，让我们来看看豆瓣上有什么好书吧首先当然是很正经地访问一下网页啦网站网址是https://book.douban.com/top250?start=0 那么我们所需要的内容就是图片旁边的信息了，那就先让虫子爬过去吧，上吧小虫虫！！！好了，get到源代码了，再来看看自己需要的信息在哪里就阅读全文

posted @ 2018-09-03 11:01 星涅爱别离阅读(881) 评论(2) 推荐(0) 编辑

一起来学习XPATH，来看看除了正则表达式我们还能怎么抓取数据

摘要：参考学习的网站链接http://www.w3school.com.cn/xpath/xpath_intro.asp 首先理清楚一些常识以此为例参照HTML的格式其实很多都只是换了一下名字而已还是很好上手的节点（Node）基本值（或称原子值，Atomic value）项目（Item）项目是阅读全文

posted @ 2018-08-27 11:58 星涅爱别离阅读(499) 评论(0) 推荐(0) 编辑

星涅爱别离

选择远方 ,风雨兼程 U Can Do This All Day！！

随笔分类 - 养一只小爬虫

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论