摘要:
此程序只是单纯的为了练习而做,首先这个顶点小说非收费型的那种小说网站(咳咳,我们应该支持正版,正版万岁,✌)。经常在这个网站看小说,所以就光荣的选择了这个网站。此外,其实里面是自带下载功能的,而且支持各种格式:(TXT,CHM,UMD,JAR,APK,HTML),所以可能也并没有设置什么反爬措施,我 阅读全文
摘要:
第3章详细设计和实现 第3章详细设计和实现 3.1相关技术 1)TCP编程,主要包括socket()函数、bind()函数、listen()函数、recv()函数、send()函数以及客户端的connect()函数。 2)C语言中对结构体的操作,和对字符串的比较 3)对文件的读写操作 4)popen 阅读全文
摘要:
用python爬取知乎的热榜,获取标题和链接。 环境和方法:ubantu16.04、python3、requests、xpath 1.用浏览器打开知乎,并登录 2.获取cookie和User—Agent 3.上代码 4.爬取结果 阅读全文
摘要:
1.登录服务器 2.sudo apt-get update 更新软件列表 3.sudo apt-get install lamp-server^ (注意右上角的' ^ '这个不能少) 输入apache2 -v 测试是否安装成功 4.此时就可以在自己的机器上的浏览器输入ip地址访问了,出现这个界面说明 阅读全文
摘要:
在requests获取网页的编码格式时,有两种方式,而结果也不同,通常用apparent_encoding更合适 注:推荐一个大佬写的关于获取网页编码格式以及requests中text()和content()的区别,以及转码的一些问题 http://xiaorui.cc/2016/02/19/代码分 阅读全文
摘要:
简介:在做爬虫时,xpath返回的是列表格式,我们又需要将列表中的元素一一对应并存放至字典中,这是就可以用zip函数。 zip() 函数用于将可迭代的对象作为参数,将对象中对应的元素打包成一个个元组,然后返回由这些元组组成的列表。如果各个迭代器的元素个数不一致,则返回列表长度与最短的对象相同,利用 阅读全文
摘要:
for循环中如果要获取当前元素的索引值,一个方法是定义一个计数器,每次取值的时候将这个值加一,如果是列表的话可以用index()函数,而python中有一个比较简洁的方法而已直接获得索引值,并可以方便的将之转换为字典格式。 阅读全文
摘要:
HTTP状态码(HTTP Status Code)是用以表示网页服务器HTTP响应状态的3位数字代码。它由 RFC 2616 规范定义的,并得到RFC 2518、RFC 2817、RFC 2295、RFC 2774、RFC 4918等规范扩展。 这里记录一下常见的状态码: 200 OK 代表请求成功 阅读全文
摘要:
Microsoft:IE (Trident内核) Opera: Presto内核 Mozilia:Firefox (Gecko内核) Linux: KHTML (like Gecko) Apple: Webkit (like KHTML) Google: Chrome (like webkit) 其 阅读全文
摘要:
问题描述:python中通过for循环来删除列表中的两个相邻的元素,存在漏删的问题 比如说下面的例子,准备删掉2和3,但是结果是2删掉了,3没删掉 是因为把2删掉后3的下标就变成了1,但是原本下标为1的2已经遍历过了,所以就不会在比较现在下标为1的3,所以3就没有删除 改进措施:可以另外定义一个列表 阅读全文