Python之网页爬虫 - 随笔分类 - dy9776

Python yield 使用

摘要：老是看到好的文章，不由自主的收集过来。原文链接：https://www.ibm.com/developerworks/cn/opensource/os-cn-python-yield/ 廖大写的，对理解 yield 很有帮助！您可能听说过，带有 yield 的函数在 Python 中被称之为阅读全文

posted @ 2017-12-13 12:07 dy9776 阅读(211) 评论(0) 推荐(0)

Python是解释性语言吗？直到看到有 python py、pyc、pyo、pyd 文件

摘要：py是源文件，pyc是源文件编译后的文件，pyo是源文件优化编译后的文件，pyd是其他语言写的python库 1. Python是一门解释型语言？ Python是一门解释性语言，我就这样一直相信下去，直到发现了*.pyc文件的存在。如果是解释型语言，那么生成的*.pyc文件是什么呢？c应该是com 阅读全文

posted @ 2017-10-26 12:00 dy9776 阅读(5838) 评论(0) 推荐(1)

Python解释器

摘要：#python 编译器很有意思，故收集一些大神们总结，最为学习的资料整理，以下都是来源于互联网当我们编写Python代码时，我们得到的是一个包含Python代码的以.py为扩展名的文本文件。要运行代码，就需要Python解释器去执行.py文件。由于整个Python语言从规范到解释器都是开源的阅读全文

posted @ 2017-04-13 14:37 dy9776 阅读(998) 评论(0) 推荐(1)

解决python：'ascii' codec can't encode characters in position问题

摘要：今天把一个列表转换成字符串输出的时候出现了UnicodeEncodeError: 'ascii' codec can't encode characters in position 32-34: ordinal not in range(128)问题，使用的是ulipad编译器。解决方法1：在开阅读全文

posted @ 2017-03-28 21:53 dy9776 阅读(1167) 评论(0) 推荐(0)

python3.x 和 python2.x关于 urllib的用法

摘要：在python2.x版本中可以直接使用import urllib来进行操作，但是python3.x版本中使用的是import urllib.request来进行操作，下面是简单的例子： python2.x python3.x 阅读全文

posted @ 2017-03-28 21:05 dy9776 阅读(836) 评论(0) 推荐(0)

pythong 中的 __call__

摘要：python __call__ (可调用对象) __call__ Python中有一个有趣的语法，只要定义类型的时候，实现__call__函数，这个类型就成为可调用的。换句话说，我们可以把这个类型的对象当作函数来使用，相当于重载了括号运算符。例如，现在我们要计算重力环境下的自然落体位移。我们知道阅读全文

posted @ 2017-02-09 14:42 dy9776 阅读(1864) 评论(0) 推荐(0)

nutch中bin/crawl和bin/nutch crawl的用法(转)

摘要：针对上一篇文章中出现的问题：Command crawl is deprecated, please use bin/crawl instead错误信息，今天在官网上查阅了一下，进行了总结。官网link：http://wiki.apache.org/nutch/bin/nutch%20crawl 一阅读全文

posted @ 2016-07-07 15:31 dy9776 阅读(1410) 评论(0) 推荐(0)

带 IK 分词器的 Luke 和搜索应用服务器solr

摘要：首先在网上查了一下： Solr Solr是一个独立的企业级搜索应用服务器，它对外提供类似于Web-service的API接口。用户可以通过http请求，向搜索引擎服务器提交一定格式的XML文件，生成索引;也可以通过Http Get操作提出查找请求，并得到XML格式的返回结果。 Solr引擎 Solr 阅读全文

posted @ 2016-07-06 16:51 dy9776 阅读(691) 评论(0) 推荐(0)

网站常见的反爬虫和应对方法(转)

摘要：在我们的对2016年大数据行业的预测文章《2016年大数据将走下神坛拥抱生活资本青睐创业机会多》里，我们曾经提到“在2016年，防止网站数据爬取将变成一种生意。”。今天我找到了来自”BSDR“的一篇文章，文章里主要介绍了常见的反爬虫应对方法，下面是正文。常见的反爬虫这几天在爬一个网站，网站做了阅读全文

posted @ 2016-07-05 23:29 dy9776 阅读(1269) 评论(0) 推荐(0)

Nutch的发展历程(转)

摘要：2002年8月由Doug Cutting发起，托管于Sourceforge，之后发布了0.4、0.5、0.6三个版本 2004年9月Oregon State University（俄勒冈州立大学）采用Nutch 2004年9月Creative Commons（知识共享）推出基于Nutch的搜索服务阅读全文

posted @ 2016-07-05 18:01 dy9776 阅读(241) 评论(0) 推荐(0)

用Apache Ivy实现项目里的依赖管理

摘要：Apache Ivy是一个管理项目依赖的工具它与Maven Apache Maven 构建管理和项目管理工具已经吸引了 Java 开发人员的注意。Maven 引入了 JAR 文件公共存储库的概念，可通过公开的 Web 服务器访问（称为 ibiblio）。Maven 的方法减少了 JAR 文件膨胀的阅读全文

posted @ 2016-07-05 17:58 dy9776 阅读(3100) 评论(0) 推荐(0)

Nutch相关框架安装使用最佳指南（转帖）

摘要：Nutch相关框架安装使用最佳指南 Chinese installing and using instruction - The best guidance in installing and using Nutch in China 国内首套免费的《Nutch相关框架视频教程》土豆在线观看地址：阅读全文

posted @ 2016-07-04 20:54 dy9776 阅读(646) 评论(0) 推荐(0)

爬虫的定向爬取与垂直搜索

摘要：转爬虫的定向爬取与垂直搜索定向爬虫是网络爬虫的一种。定向爬虫定向爬虫可以精准的获取目标站点信息。定向爬虫获取信息，配上手工或者自动的模版进行信息匹配，将信息进行格式化分析存储。优势：基于模版的信息提取技术，能提供更加精准的信息。比如价格，房屋面积，时间，职位，公司名等等。劣势：目标阅读全文

posted @ 2016-06-30 16:39 dy9776 阅读(797) 评论(0) 推荐(0)

开源的网络爬虫以及一些简介和比较

摘要：转目前网络上开源的网络爬虫以及一些简介和比较目前网络上有不少开源的网络爬虫可供我们使用，爬虫里面做的最好的肯定是google ，不过google公布的蜘蛛是很早的一个版本，下面是几种开源的网络爬虫的简单对比表：下面我们再对Nutch、Larbin、Heritrix这三个爬虫进行更细致的比较：阅读全文

posted @ 2016-06-30 16:36 dy9776 阅读(581) 评论(0) 推荐(0)

python3.X中简单错误处理，和Python2区别

摘要：1.print 1.1 Print是一个函数在Python3中print是个函数，这意味着在使用的时候必须带上小括号,并且它是带有参数的。 >>> print 'hello world' SyntaxError: Missing parentheses in call to 'print' >>> 阅读全文

posted @ 2016-06-21 16:40 dy9776 阅读(1291) 评论(0) 推荐(0)

什么是网络爬虫(Spider) 程序

摘要：Spider又叫WebCrawler或者Robot，是一个沿着链接漫游Web 文档集合的程序。它一般驻留在服务器上，通过给定的一些URL，利用HTTP等标准协议读取相应文档,然后以文档中包括的所有未访问过的URL作为新的起点，继续进行漫游，直到没有满足条件的新URL为止。WebCrawler的主要功阅读全文

posted @ 2016-03-02 12:32 dy9776 阅读(3062) 评论(0) 推荐(0)

学习爬虫

摘要：对爬虫不是很了解，学习一下其他人的。关于学习跟多爬虫技术，大家可以看这个人写的，挺不错的 http://cuiqingcai.com/1052.html Java网络爬虫的实现在做图片搜索时，需要大量的测试图片，因此萌生了从Amazon中爬取图书封面图片的想法。网络爬虫是一个自动提取网页的程序阅读全文

posted @ 2015-12-25 19:52 dy9776 阅读(541) 评论(0) 推荐(0)

dy9776

随笔分类 - Python之网页爬虫

公告