Geeksongs - 博客园

2021年2月8日

摘要：要想将我们爬取到的文件的数据进行持久化操作，那么在Scrapy下有两种方式， 1.基于终端指令的数据持久化要求：只能将parse方法的返回值储存到文本文件当中注意：持久化文本文件的类型只能够为csv,json.xml等，不能够为txt,excel 指令使用： scrapy crawl xxx(爬阅读全文

posted @ 2021-02-08 07:08 Geeksongs 阅读(184) 评论(0) 推荐(0)

2021年2月7日

【前端开发】：行间距和首行缩进

摘要： 1.行间距使用line-height属性 2.首行缩进使用text-indent，单位为em，一个em就是一个汉字的宽度 3.文字居中使用text-align：center为居中，right则放到最右边，left放到最左边代码如下所示： <!DOCTYPE html> <html lang="en 阅读全文

posted @ 2021-02-07 13:11 Geeksongs 阅读(997) 评论(0) 推荐(0)

【Python爬虫】: Scrapy工程的创建和使用（爬取糗图百科）

摘要：一.创建一个Scrapy工程首先我们创建一个名为project_name的scrapy工程： scrapy startproject project_name 在子目录下生成一个名为first的爬虫文件： (base) F:\computer\scrapy_learn>scrapy genspid 阅读全文

posted @ 2021-02-07 11:18 Geeksongs 阅读(351) 评论(0) 推荐(0)

2021年2月6日

【前端开发】：CSS中的链接伪类选择器

摘要：链接伪类选择器也是一种选择器，它可以向某些选择器当中添加特殊的效果。比如给链接添加特殊的效果。它的使用方法如下所示： :link /# 未访问的链接#/ :visited /# 已经访问的链接#/ :hover /#鼠标移动到链接上 #/ :active /# 选定的链接#/ 用了这四个关键字，我们阅读全文

posted @ 2021-02-06 09:23 Geeksongs 阅读(429) 评论(0) 推荐(0)

2021年2月4日

【Python爬虫】：模拟登录QQ空间

摘要：观察了下QQ空间实在是太好登录了！只需要首先点击账号密码登录，然后输入你的账号和密码就可以了！其中需要注意的是; 1.进行第一次点击的时候，点击“账号密码”的时候，需要首先切换到iframe模式 2.根据id进行选择输入代码如下; from selenium import webdriver i 阅读全文

posted @ 2021-02-04 13:28 Geeksongs 阅读(804) 评论(0) 推荐(0)

2021年2月1日

【前端开发】：使用CSS中的ID选择器编写Google字体样式

摘要： ID选择器和class类选择器的不同是:每一个ID只能够被html调用一次，而css当中所编写的class则可以被html调用多次，我们使用ID选择器编写一个谷歌样式的字体，如果需要选择同样的颜色，则需要更换不同的id名称，使用class类选择器编写谷歌字体样式的网页如下： https://www. 阅读全文

posted @ 2021-02-01 13:32 Geeksongs 阅读(306) 评论(0) 推荐(0)

【前端开发】：使用CSS类选择器编写Google字体样式

摘要：假设我们想要实现谷歌首页这样的样式字体该怎么办呢？如下所示：从中可以看到Google当中的G和小写的g均为蓝色，o和e均为红色，剩下的一个o和l分别为黄色和绿色。我们可以使CSS当中的class选择器来完成这字体的编写，首先我们使用span标签来表示Google这个单词如下所示： <!DOCTYP 阅读全文

posted @ 2021-02-01 13:17 Geeksongs 阅读(494) 评论(0) 推荐(0)

2021年1月31日

【Python爬虫】：使用动态IP代理进行反反爬虫

摘要：一.为什么要动态IP代理？当我们有时使用爬虫的时候，如果频繁对某一个界面请求过太多的次数，那么有些网站就会因为反爬虫的措施发现同一个IP地址对它请求了太多的次数，因此对我们的爬虫进行了禁止，你必须要登录这个网站才能够继续进行爬虫。这个时候呢，如果我们能够直接在请求网页的时候不断更换自己的IP地址，阅读全文

posted @ 2021-01-31 11:30 Geeksongs 阅读(956) 评论(0) 推荐(0)

【Python爬虫】：使用高性能异步多进程爬虫获取豆瓣电影Top250

摘要：在本篇博文当中，将会教会大家如何使用高性能爬虫，快速爬取并解析页面当中的信息。一般情况下，如果我们请求网页的次数太多，每次都要发出一次请求，进行串行执行的话，那么请求将会占用我们大量的时间，这样得不偿失。因此我们可以i使用高性能爬虫，也就是采用多进程，异步的方式对数据进行爬取和解析，这样就可以在更快阅读全文

posted @ 2021-01-31 10:42 Geeksongs 阅读(712) 评论(0) 推荐(0)

【Python爬虫】：破解网站字体加密和反反爬虫

摘要：前言：字体反爬，也是一种常见的反爬技术，例如58同城，猫眼电影票房，汽车之家，天眼查，实习僧等网站。这些网站采用了自定义的字体文件，在浏览器上正常显示，但是爬虫抓取下来的数据要么就是乱码，要么就是变成其他字符，是因为他们采用自定义字体文件，通过在线加载来引用样式，这是CSS3的新特性，通过 CSS3 阅读全文

posted @ 2021-01-31 09:01 Geeksongs 阅读(2006) 评论(0) 推荐(0)

Geek Song

保持对科技的热情，不断积累自己的技术套装，力求能够快速从0到1构建整个项目，生命因技术而更加精彩！

公告

Coded by Geeksongs on Linux

All rights reserved, no one is allowed to pirate or use the document for other purposes.