tutorial - 随笔分类 - lvmememe

8.2 前端检索的敏感词过滤的Python实现（针对元搜索）

摘要：对于前端的搜索内容进行控制，比如敏感词过滤，同样使用socket，这里使用Python语言做一个demo。这里不得不感叹一句，socket真是太神奇了，可以跨语言把功能封装，为前端提供服务。下面就是一个Python通过socket提供敏感词过滤的demo：https://github.com/10 阅读全文

posted @ 2017-05-12 23:34 lvmememe 阅读(1513) 评论(0) 推荐(0) 编辑

2.7 文章类网页提取和判断的原理讲解

摘要：由于互联网的网页具有内容的多样性和结构的复杂性，采用一个通用的算法对其进行处理有着重要的意义。除了正文，大多数网页还包含许多噪音信息，比如导航栏、侧边栏和广告。网页正文提取的目标就是要去掉噪音信息提取出正文信息。在本文中，要说明的是我自己提出的P值算法。P值的公式基于全概率公式，非常简洁，并且P值描阅读全文

posted @ 2017-05-10 18:52 lvmememe 阅读(542) 评论(0) 推荐(0) 编辑

2.4 通用的网页信息结构化信息提取的方法

摘要：我们在抓网页的时候，希望获得的是网页中的有效信息。事实上，直接抓取下来的内容是网页全部的HTML代码，代码中有很多标签、格式控制等等无效的信息。这一节我们就来讲解对于任意一个网页，我们怎么提取出网页中的有效信息，并且结构化存储。先亮代码：https://github.com/1049451037/ 阅读全文

posted @ 2017-05-09 18:05 lvmememe 阅读(1394) 评论(0) 推荐(0) 编辑

2.6 网页分类：文章类/非文章类

摘要：有了这个分类，我们就可以进行全网抓取，是文章类的就入库，不是文章类的就不入库。所以这个分类对于我们要做的文章类搜索引擎至关重要。事实上实现方法也非常简单，上一节已经提到了，同样是上一节的程序，可以输出每个页面是文章类网页的概率，大于0.5我们就认为是文章类。比如我加入了三个链接，分别是我的博客主阅读全文

posted @ 2017-05-07 21:03 lvmememe 阅读(442) 评论(0) 推荐(0) 编辑

2.5 文章类网页正文提取程序演示

摘要：正文提取有很多方法，对于这个问题我也看了很多论文，最后综合了很多论文的方法，自己想出了一个方法，并且发表了一篇国际会议的论文。这个方法是基于文本密度和全概率公式的，其实道理很简单。文本密度越高的地方越有可能是正文，有效文本占总的文本比例越大的地方也越有可能是正文。从概率论的角度，很容易想到，把这两个阅读全文

posted @ 2017-05-07 01:25 lvmememe 阅读(667) 评论(0) 推荐(0) 编辑

2.3 基于宽度优先搜索的网页爬虫原理讲解

摘要：上一节我们下载并使用了宽度优先的爬虫，这一节我们来具体看一下这个爬虫的原理。首先，查看HTML.py的源代码。第一个函数：这个函数的作用是抓取url的内容（二进制内容，可以直接传进beautifulsoup里分析）。之所以显得比较复杂，是因为加入了一些异常处理，使得函数的可靠性更强一些。另外也阅读全文

posted @ 2017-05-05 21:38 lvmememe 阅读(747) 评论(0) 推荐(0) 编辑

[转载]图的宽度优先遍历

摘要：转载自：http://book.51cto.com/art/201012/236668.htm 1.2 宽度优先爬虫和带偏好的爬虫 1.1节介绍了如何获取单个网页内容。在实际项目中，则使用爬虫程序遍历互联网，把网络中相关的网页全部抓取过来，这也体现了爬虫程序"爬"的概念。爬虫程序是如何遍历互联网，把阅读全文

posted @ 2017-05-04 23:32 lvmememe 阅读(1576) 评论(0) 推荐(0) 编辑

lvmememe

此博客不再更新。ACM相关文章已迁移至http://www.cnblogs.com/acmsong/

随笔分类 - tutorial

公告