随笔分类 -  tutorial

摘要:对于前端的搜索内容进行控制,比如敏感词过滤,同样使用socket,这里使用Python语言做一个demo。这里不得不感叹一句,socket真是太神奇了,可以跨语言把功能封装,为前端提供服务。 下面就是一个Python通过socket提供敏感词过滤的demo:https://github.com/10 阅读全文
posted @ 2017-05-12 23:34 lvmememe 阅读(1513) 评论(0) 推荐(0) 编辑
摘要:由于互联网的网页具有内容的多样性和结构的复杂性,采用一个通用的算法对其进行处理有着重要的意义。除了正文,大多数网页还包含许多噪音信息,比如导航栏、侧边栏和广告。网页正文提取的目标就是要去掉噪音信息提取出正文信息。在本文中,要说明的是我自己提出的P值算法。P值的公式基于全概率公式,非常简洁,并且P值描 阅读全文
posted @ 2017-05-10 18:52 lvmememe 阅读(542) 评论(0) 推荐(0) 编辑
摘要:我们在抓网页的时候,希望获得的是网页中的有效信息。事实上,直接抓取下来的内容是网页全部的HTML代码,代码中有很多标签、格式控制等等无效的信息。这一节我们就来讲解对于任意一个网页,我们怎么提取出网页中的有效信息,并且结构化存储。 先亮代码:https://github.com/1049451037/ 阅读全文
posted @ 2017-05-09 18:05 lvmememe 阅读(1394) 评论(0) 推荐(0) 编辑
摘要:有了这个分类,我们就可以进行全网抓取,是文章类的就入库,不是文章类的就不入库。所以这个分类对于我们要做的文章类搜索引擎至关重要。 事实上实现方法也非常简单,上一节已经提到了,同样是上一节的程序,可以输出每个页面是文章类网页的概率,大于0.5我们就认为是文章类。 比如我加入了三个链接,分别是我的博客主 阅读全文
posted @ 2017-05-07 21:03 lvmememe 阅读(442) 评论(0) 推荐(0) 编辑
摘要:正文提取有很多方法,对于这个问题我也看了很多论文,最后综合了很多论文的方法,自己想出了一个方法,并且发表了一篇国际会议的论文。这个方法是基于文本密度和全概率公式的,其实道理很简单。文本密度越高的地方越有可能是正文,有效文本占总的文本比例越大的地方也越有可能是正文。从概率论的角度,很容易想到,把这两个 阅读全文
posted @ 2017-05-07 01:25 lvmememe 阅读(667) 评论(0) 推荐(0) 编辑
摘要:上一节我们下载并使用了宽度优先的爬虫,这一节我们来具体看一下这个爬虫的原理。 首先,查看HTML.py的源代码。 第一个函数: 这个函数的作用是抓取url的内容(二进制内容,可以直接传进beautifulsoup里分析)。之所以显得比较复杂,是因为加入了一些异常处理,使得函数的可靠性更强一些。另外也 阅读全文
posted @ 2017-05-05 21:38 lvmememe 阅读(747) 评论(0) 推荐(0) 编辑
摘要:转载自:http://book.51cto.com/art/201012/236668.htm 1.2 宽度优先爬虫和带偏好的爬虫 1.1节介绍了如何获取单个网页内容。在实际项目中,则使用爬虫程序遍历互联网,把网络中相关的网页全部抓取过来,这也体现了爬虫程序"爬"的概念。爬虫程序是如何遍历互联网,把 阅读全文
posted @ 2017-05-04 23:32 lvmememe 阅读(1576) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示