随笔分类 -  Python之网页爬虫

摘要:老是看到好的文章,不由自主的收集过来。 原文链接:https://www.ibm.com/developerworks/cn/opensource/os-cn-python-yield/ 廖大写的, 对理解 yield 很有帮助! 您可能听说过,带有 yield 的函数在 Python 中被称之为 阅读全文
posted @ 2017-12-13 12:07 dy9776 阅读(203) 评论(0) 推荐(0) 编辑
摘要:py是源文件,pyc是源文件编译后的文件,pyo是源文件优化编译后的文件,pyd是其他语言写的python库 1. Python是一门解释型语言? Python是一门解释性语言,我就这样一直相信下去,直到发现了*.pyc文件的存在。 如果是解释型语言,那么生成的*.pyc文件是什么呢?c应该是com 阅读全文
posted @ 2017-10-26 12:00 dy9776 阅读(5785) 评论(0) 推荐(1) 编辑
摘要:#python 编译器很有意思, 故 收集一些大神们总结,最为学习的资料整理,以下都是来源于互联网 当我们编写Python代码时,我们得到的是一个包含Python代码的以.py为扩展名的文本文件。要运行代码,就需要Python解释器去执行.py文件。 由于整个Python语言从规范到解释器都是开源的 阅读全文
posted @ 2017-04-13 14:37 dy9776 阅读(988) 评论(0) 推荐(1) 编辑
摘要:今天把一个列表转换成字符串输出的时候出现了UnicodeEncodeError: 'ascii' codec can't encode characters in position 32-34: ordinal not in range(128)问题,使用的是ulipad编译器。 解决方法1: 在开 阅读全文
posted @ 2017-03-28 21:53 dy9776 阅读(1062) 评论(0) 推荐(0) 编辑
摘要:在python2.x版本中可以直接使用import urllib来进行操作,但是python3.x版本中使用的是import urllib.request来进行操作,下面是简单的例子: python2.x python3.x 阅读全文
posted @ 2017-03-28 21:05 dy9776 阅读(826) 评论(0) 推荐(0) 编辑
摘要:python __call__ (可调用对象) __call__ Python中有一个有趣的语法,只要定义类型的时候,实现__call__函数,这个类型就成为可调用的。 换句话说,我们可以把这个类型的对象当作函数来使用,相当于重载了括号运算符。 例如,现在我们要计算重力环境下的自然落体位移。我们知道 阅读全文
posted @ 2017-02-09 14:42 dy9776 阅读(1843) 评论(0) 推荐(0) 编辑
摘要:针对上一篇文章中出现的问题:Command crawl is deprecated, please use bin/crawl instead错误信息,今天在官网上查阅了一下,进行了总结。 官网link:http://wiki.apache.org/nutch/bin/nutch%20crawl 一 阅读全文
posted @ 2016-07-07 15:31 dy9776 阅读(1395) 评论(0) 推荐(0) 编辑
摘要:首先在网上查了一下: Solr Solr是一个独立的企业级搜索应用服务器,它对外提供类似于Web-service的API接口。用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索引;也可以通过Http Get操作提出查找请求,并得到XML格式的返回结果。 Solr引擎 Solr 阅读全文
posted @ 2016-07-06 16:51 dy9776 阅读(682) 评论(0) 推荐(0) 编辑
摘要:在我们的对2016年大数据行业的预测文章《2016年大数据将走下神坛拥抱生活 资本青睐创业机会多》里,我们曾经提到“在2016年,防止网站数据爬取将变成一种生意。”。今天我找到了来自”BSDR“的一篇文章,文章里主要介绍了常见的反爬虫应对方法,下面是正文。 常见的反爬虫 这几天在爬一个网站,网站做了 阅读全文
posted @ 2016-07-05 23:29 dy9776 阅读(1205) 评论(0) 推荐(0) 编辑
摘要:2002年8月由Doug Cutting发起,托管于Sourceforge,之后发布了0.4、0.5、0.6三个版本 2004年9月Oregon State University(俄勒冈州立大学)采用Nutch 2004年9月Creative Commons(知识共享)推出基于Nutch的搜索服务 阅读全文
posted @ 2016-07-05 18:01 dy9776 阅读(233) 评论(0) 推荐(0) 编辑
摘要:Apache Ivy是一个管理项目依赖的工具 它与Maven Apache Maven 构建管理和项目管理工具已经吸引了 Java 开发人员的注意。Maven 引入了 JAR 文件公共存储库的概念,可通过公开的 Web 服务器访问(称为 ibiblio)。Maven 的方法减少了 JAR 文件膨胀的 阅读全文
posted @ 2016-07-05 17:58 dy9776 阅读(2902) 评论(0) 推荐(0) 编辑
摘要:Nutch相关框架安装使用最佳指南 Chinese installing and using instruction - The best guidance in installing and using Nutch in China 国内首套免费的《Nutch相关框架视频教程》 土豆在线观看地址: 阅读全文
posted @ 2016-07-04 20:54 dy9776 阅读(624) 评论(0) 推荐(0) 编辑
摘要:转 爬虫的定向爬取与垂直搜索 定向爬虫是网络爬虫的一种。 定向爬虫 定向爬虫可以精准的获取目标站点信息。 定向爬虫获取信息,配上手工或者自动的模版进行信息匹配,将信息进行格式化分析存储。 优势: 基于模版的信息提取技术,能提供更加精准的信息。比如价格,房屋面积,时间,职位,公司名等等。 劣势: 目标 阅读全文
posted @ 2016-06-30 16:39 dy9776 阅读(773) 评论(0) 推荐(0) 编辑
摘要:转 目前网络上开源的网络爬虫以及一些简介和比较 目前网络上有不少开源的网络爬虫可供我们使用,爬虫里面做的最好的肯定是google ,不过google公布的蜘蛛是很早的一个版本,下面是几种开源的网络爬虫的简单对比表: 下面我们再对Nutch、Larbin、Heritrix这三个爬虫进行更细致的比较: 阅读全文
posted @ 2016-06-30 16:36 dy9776 阅读(555) 评论(0) 推荐(0) 编辑
摘要:1.print 1.1 Print是一个函数 在Python3中print是个函数,这意味着在使用的时候必须带上小括号,并且它是带有参数的。 >>> print 'hello world' SyntaxError: Missing parentheses in call to 'print' >>> 阅读全文
posted @ 2016-06-21 16:40 dy9776 阅读(1270) 评论(0) 推荐(0) 编辑
摘要:Spider又叫WebCrawler或者Robot,是一个沿着链接漫游Web 文档集合的程序。它一般驻留在服务器上,通过给定的一些URL,利用HTTP等标准协议读取相应文档,然后以文档中包括的所有未访问过的URL作为新的起点,继续进行漫游,直到没有满足条件的新URL为止。WebCrawler的主要功 阅读全文
posted @ 2016-03-02 12:32 dy9776 阅读(2995) 评论(0) 推荐(0) 编辑
摘要:对爬虫不是很了解,学习一下其他人的。 关于学习跟多爬虫技术,大家可以看这个人写的,挺不错的 http://cuiqingcai.com/1052.html Java网络爬虫的实现 在做图片搜索时,需要大量的测试图片,因此萌生了从Amazon中爬取图书封面图片的想法。 网络爬虫是一个自动提取网页的程序 阅读全文
posted @ 2015-12-25 19:52 dy9776 阅读(530) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示