上一页 1 ··· 13 14 15 16 17 18 19 20 21 ··· 24 下一页
摘要: 本篇是为项目实战做准备,学习Linux是必备的,不然都不好意思叫全栈对吧?下面是一位资深大神写的文章,够详细,我也不用浪费时间再写了 阅读全文
posted @ 2017-12-12 17:22 Eeyhan 阅读(390) 评论(0) 推荐(0) 编辑
摘要: 上面截图的是我的草稿 然后当我开始写博文的时候,我发现讲解PhantomJS的话,会涉及到JS代码,而相信跟着我的学习路线从小白上来的,应该都还没学过JS吧,说到JS,那么和Phantom很像的一个模块casperjs,也要跟着提点下,那么还要从JS开始讲解 然后说到PyQuery,其又几乎和JQuery差不多,又要提下JQuery 阅读全文
posted @ 2017-12-12 17:19 Eeyhan 阅读(469) 评论(0) 推荐(0) 编辑
摘要: 操作系统简史 什么是操作系统? 可能很多人都会说,我们平时装的windows7 windows10都是操作系统,没错,他们都是操作系统。还有没有其他的? 想想我们使用的手机,Google公司的Android系统,Apple公司笔记本上的的MacOSX、IPhone的IOS,他们都是操作系统。 阅读全文
posted @ 2017-11-29 23:03 Eeyhan 阅读(260) 评论(0) 推荐(0) 编辑
摘要: 详细内容: 电脑结构和CPU、内存、硬盘三者之间的关系 前面提到了,电脑之父——冯·诺伊曼提出了计算机的五大部件:输入设备、输出设备、存储器、运算器和控制器。 阅读全文
posted @ 2017-11-29 20:41 Eeyhan 阅读(251) 评论(0) 推荐(0) 编辑
摘要: 电脑简史 我们都知道电脑的学名叫计算机,从名字我们可以看出,最初电脑是用来做计算的。那么我们可以推测,电脑的始祖是用来做计算的。 在远古,人们最早使用的计算工具可能是手指,英文单词“digit”既有“数字”的意思,又有“手指“的意思。古人用石头打猎,所以还有可能是石头来辅助计算。 但是手指和石头太低效了,后来就出现了”结绳“记事——结绳慢,绳子还有长度限制。后来又不知过了多久,许多国家的人开始使用”筹码“来计数,最有名的就要数咱们中国商周时期出现的算筹了。古代的算筹实际上是一根根同样长短和粗细的小棍子,大约二百七十几枚为一束; 多用竹子制成,也有用木头、兽骨、象牙、金属等材料制成的。数学家祖冲之计算圆周率时使用的工具就是算筹。 在长期使用算筹进行计算的过程中,算筹的缺点显露了出来,使用算筹计算太麻烦了,很不方便——计算时需要慢慢摆放。 阅读全文
posted @ 2017-11-29 20:29 Eeyhan 阅读(479) 评论(0) 推荐(0) 编辑
摘要: Xpath,lxml模块用法 转载的原因和前面的一样,我写的没别人写的好,所以我也不浪费时间了,直接转载这位崔庆才大佬的 原帖链接:传送门 以下为转载内容: -------------------------------------------------------------------------------------------------------------------------------- 参考来源 lxml用法源自 lxml python 官方文档,更多内容请直接参阅官方文档,本文对其进行翻译与整理。 lxml XPath语法参考 w3school 阅读全文
posted @ 2017-11-29 13:20 Eeyhan 阅读(212) 评论(0) 推荐(0) 编辑
摘要: 在前面的某一篇中,说完了pickle,但我相信好多朋友都不懂到底有什么用,那么到了爬虫篇,它就大有用处了,而和pickle很相似的就是JSON模块 JSON 1.简介 1)JSON(JavaScript Object Notation) ,js对象标记,是一种轻量级的数据交换格式。它易于阅读和编写,同时也易于机器解析和生成。它基于JavaScript Programming Language, Standard ECMA-262 3rd Edition - December 1999的一个子集,所以有另一个说法,JSON 语法是 JavaScript 对象表示语法的子集。 阅读全文
posted @ 2017-11-27 16:23 Eeyhan 阅读(253) 评论(0) 推荐(1) 编辑
摘要: feedparser模块 1.简介 feedparser是一个Python的Feed解析库,可以处理RSS ,CDF,Atom 。使用它我们可从任何 RSS 或 Atom 订阅源得到标题、链接和文章的条目了。 RSS(Really Simple Syndication,简易信息聚合):是一种描述和同步网站内容的格式你可以认为是一种定制个性化推送信息的服务。RSS 是用于分发 Web 站点上的内容的摘要的一种简单的 XML 格式它能够解决你漫无目的的浏览网页的问题。它的信息越是过剩,它的意义也越加彰显。网络中充斥着大量的信息垃圾,每天摄入了太多自己根本不关心的信息。让自己关注的信息主动来找自己,且这些信息都是用户自己所需要的,这就是RSS的意义 比如这个链接:http://feed.cnblogs.com/blog/sitehome/rss 阅读全文
posted @ 2017-11-26 21:51 Eeyhan 阅读(432) 评论(0) 推荐(0) 编辑
摘要: 题外话: 爬虫学到这里,我想你大部分的网站已经不再话下了对吧?有检测报文头的,我们可以伪造报文头为浏览器,有检测IP,我们可以用代理IP,有检测请求速度的,我们可以用time模块停顿一下,需要登录验证的,我们可以用cookielib模块搞定登录,HTML标签嵌套太多层的,我们可以用BeautifulSoup轻松取出来,等等方法,反正反爬虫机制怎么样,我们基本都有方法解决。 很厉害对吧?别得意忘形了,还有些反爬虫机制,网页是JS动态加载的,或者AJAX异步加载的,还有动态验证码验证的等等的,这些机制造成的难度那才是真正的难度。后期也会跟着解析 其实你有没有发现,在我们写爬虫的过程中,在潜移默化的复习前面的基础知识,很不错对吧?既能写爬虫,还能复习,在其中能掌握好多好多知识,是的。不过在这里,我还是建议大家稍微的了解一下html标签和css样式,或者你还可以学习一下js,这样对后期搞爬虫很有帮助,需要去了解每个标签或者代码是什么含义,什么作用,当写爬虫时遇到了,才能立马做出解决方法对吧? 阅读全文
posted @ 2017-11-26 21:14 Eeyhan 阅读(733) 评论(0) 推荐(0) 编辑
摘要: 学完前面的教程,相信你已经能爬取大部分的网站信息了,但是当你爬的网站多了,你应该会发现一个新问题,有的网站需要登录账户才能看到更多的信息对吧?那么这种网站怎么爬取呢?这些登录数据就是今天要说的——cookie cookie 其实在前面在解析requests模块时也提到过的。 阅读全文
posted @ 2017-11-23 18:19 Eeyhan 阅读(876) 评论(1) 推荐(0) 编辑
上一页 1 ··· 13 14 15 16 17 18 19 20 21 ··· 24 下一页