随笔分类 - 养一只小爬虫
摘要:参考:https://sspai.com/u/skychx/updates https://www.jianshu.com/p/76cad8e963b5 :nth-of-type(-n+100) 元素名后加个 nth-of-type(-n+100),暂时只抓取前 100 条数据。 :nth-of-t
阅读全文
摘要:在上一篇我们下载好相应的driver之后,将这个driver放入到变量中去。 Mac下/usr/local目录默认是对于Finder是隐藏,如果需要到/usr/local下去,打开Finder,然后使用command+shift+G,在弹出的目录中填写/usr/local就可以了。 测试一下 fro
阅读全文
摘要:chrome版本 chromedriver版本 83.0.4103.39 83 83.0.4103.14 83 81.0.4044.138 81 81.0.4044.69 81 81.0.4044.20 81 80.0.3987.106 80 80.0.3987.16 80 79.0.3945.36
阅读全文
摘要:https://kaiwu.lagou.com/ 1。http基本原理 URI URLURN 超文本 HTTP/HTTPS http请求过程 iitiator请求源 Content-Type互联网媒体类型(提交数据的方式) Expires响应的过期时间 Host:用于指定请求资源的主机 IP 和端口
阅读全文
摘要:https://www.cnblogs.com/c-x-a/p/9889623.html 创建scrapy工程 1、scrapy startproject xxx xxx就是你的项目名,这里我们给我们的项目起名qiushibaike。 然后我们会发现了多了一个文件名为qiushibaike的文件夹
阅读全文
摘要:Requests 传递参数 二进制数据 json处理 原始数据处理 提交表单 重定向和重定向历史 网站跳转的时候跟踪用 代理 Beautiful Soup Htmlparser html格式的尽量不要用xml的方式去处理,因为html可能格式不完整 sqlite3 mySQL 需要指定mysql:h
阅读全文
摘要:代码很简单但是实现的内容可不简单,第一行导入pandas包,第二行的read_html核心功能实现是调用requests然后解析table标签里的每个td的数据最后生成一个list对象里面是dataframe对象。所以通过小标0获取它的第一个dataframe数据,既然是dateframe我们就可以
阅读全文
摘要:其他打包方式https://blog.csdn.net/lzy98/article/details/83246281?depth_1-utm_source=distribute.pc_relevant_t0.none-task-blog-BlogCommendFromMachineLearnPai2
阅读全文
摘要:为空,这是因为保存在js里面了 移除 var data= 因为在获取时字符串前缀是包含var data=的 其不符合json数据格式 因此转化时需将其从请求内容中移除
阅读全文
摘要:import requests from lxml import etree s = requests.Session() for id in range(0,251,25): url ='https://movie.douban.com/top250/?start-'+str(id) r = s.
阅读全文
摘要:源地址看 attrs 还可以这样,利用get方法,传入属性的名称,二者是等价的
阅读全文
摘要:selenium的使用对于新手来说十分友好,因为他避开了如今网络中的异步加载抓取的困扰,使得我们大部分的时间可以用于提取信息和存储中,下面就简单的列一些使用的代码,希望给同样初学的你有一定的参考价值。 这里的话你可以替换着找一些合适的网站试一下,运行的时候会自动弹出测试的浏览器(这里是谷歌浏览器),
阅读全文
摘要:但是我们也发现每一次登陆都要输入密码和账户,还要验证,这也实在是太麻烦了,所以可以通过cookies,这就是我们常说的那些记住当前网址的密码 关于上面的那个爬虫,爬出来的其实是验证码的图片,还需要手动打开然后识别图片里面的数字再手动输入,这个其实也是很麻烦的 这里先给出思路以后验证(如果还记得的呼哈
阅读全文
摘要:css中 身份证 id对应# 衣服 class对应 . 图片 pyquery。。。as pq html= request.get(url=''.....'') doc=pq(html) doc("#dq_list > li").items() tems()拿到所有子元素 for item in it
阅读全文
摘要:html的宗旨: <标签 属性=”属性的值“></标签> 只是对于文本的一种解释划分吧 dom的宗旨: 就是一个大数组,处理方便,效率低 xml <node attr=value>...</node> html是它的子集,树结构 主要注意节点关系 json 类似xml,对JavaScript友好 m
阅读全文
摘要:和廖雪峰大神的教程学了几遍后,还是出现了许多不足,于是就做一些回顾,列出一些python的细节问题,有一些就提一下,如果发现不清楚的话 还请移步https://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e54
阅读全文
摘要:当我们解析网页后,往往面对繁杂的源代码而无从下手,有时候明明知道我们想要的数据就在里面,可是应该如何把冗余的部分去除而只保留我们想要的那一个部分呢 在这里和大家一起学习一下选择的方法 1、正则表达式 真的是无奈之举的时候才会想到要去正则,因为它除非格式标准,否则每次搜索都要重新的绘制pattern
阅读全文
摘要:一到开学季,校园里面又开始散发着爱情的酸腐,与其一个人在寝室默默地哭泣,不如上网看看比外面更漂亮的妹子! 嗯,想到这,我忍不住打开了http://jandan.net/ooxx,捏着手中的精灵球,好,今天的少女图鉴就从煎蛋网开始吧!!!冲鸭 打开网页,目标定格在了最后一页 先用f12看一下 发现了,
阅读全文
摘要:开学啦,让我们来看看豆瓣上有什么好书吧 首先当然是很正经地访问一下网页啦 网站网址是https://book.douban.com/top250?start=0 那么我们所需要的内容就是图片旁边的信息了,那就先让虫子爬过去吧,上吧小虫虫!!! 好了,get到源代码了,再来看看自己需要的信息在哪里 就
阅读全文
摘要:参考学习的网站链接http://www.w3school.com.cn/xpath/xpath_intro.asp 首先理清楚一些常识 以此为例 参照HTML的格式其实很多都只是换了一下名字而已还是很好上手的 节点(Node) 基本值(或称原子值,Atomic value) 项目(Item) 项目是
阅读全文