随笔分类 - 网页数据采集

python爬取安居客二手房网站数据（转）

摘要：之前没课的时候写过安居客的爬虫，但那也是小打小闹，那这次呢，还是小打小闹哈哈，现在开始正式进行爬虫书写首先，需要分析一下要爬取的网站的结构：作为一名河南的学生，那就看看郑州的二手房信息吧！在上面这个页面中，我们可以看到一条条的房源信息，从中我们发现了什么，发现了连郑州的二手房都是这么的贵，阅读全文

posted @ 2019-04-22 20:17 谦信君阅读(3291) 评论(0) 推荐(0) 编辑

数据挖掘工具分析北京房价（一）数据爬取采集（转）

摘要：一. 前言房价永远是最让人头疼且激动的话题，尤其是在帝都，多少人一辈子都为了一套房子打拼。正好我也想用一个大家比较关心的话题作为案例，把目前我开发的这套软件进行一次完整的演练。从数据采集，到清洗，分析，和最终可视化和报告的呈现，实现一次完整的流程。一方面可以给大家切实的分享一些有用的信息，再者可以阅读全文

posted @ 2017-05-31 15:22 谦信君阅读(830) 评论(0) 推荐(0) 编辑

php抓取页面的几种方法详解

摘要：本篇文章是对php抓取页面的几种方法进行了详细的分析介绍，需要的朋友参考下在做一些天气预报或者RSS订阅的程序时，往往需要抓取非本地文件，一般情况下都是利用php模拟浏览器的访问，通过http请求访问url地址，然后得到html源代码或者xml数据，得到数据我们不能直接输出，往往需要对内容进行提... 阅读全文

posted @ 2015-07-28 15:11 谦信君阅读(974) 评论(0) 推荐(0) 编辑

strip_tags() 函数剥去 HTML、XML 以及 PHP 的标签

摘要：定义和用法strip_tags() 函数剥去 HTML、XML 以及 PHP 的标签。语法strip_tags(string,allow)参数描述string必需。规定要检查的字符串。allow可选。规定允许的标签。这些标签不会被删除。提示和注释注释：该函数始终会剥离 HTML 注释。这点无法通过a... 阅读全文

posted @ 2015-07-16 17:25 谦信君阅读(478) 评论(0) 推荐(0) 编辑

snoopy（强大的PHP采集类）详细介绍

摘要：Snoopy是一个php类，用来模拟浏览器的功能，可以获取网页内容，发送表单，可以用来开发一些采集程序和小偷程序，本文章详细介绍snoopy的使用教程。Snoopy的一些特点:抓取网页的内容fetch抓取网页的文本内容(去除HTML标签)fetchtext抓取网页的链接，表单fetchlinksfe... 阅读全文

posted @ 2015-07-16 17:04 谦信君阅读(811) 评论(0) 推荐(0) 编辑

php采集远程文章简单类

摘要：db = $db; } function geturlfile($url) { $url = trim($url); $content = ''; if (extension_loaded('curl')) { $ch = ... 阅读全文

posted @ 2015-07-16 16:59 谦信君阅读(360) 评论(0) 推荐(0) 编辑