随笔分类 -  网页数据采集

摘要:之前没课的时候写过安居客的爬虫,但那也是小打小闹,那这次呢, 还是小打小闹 哈哈,现在开始正式进行爬虫书写 首先,需要分析一下要爬取的网站的结构: 作为一名河南的学生,那就看看郑州的二手房信息吧! 在上面这个页面中,我们可以看到一条条的房源信息,从中我们发现了什么,发现了连郑州的二手房都是这么的贵, 阅读全文
posted @ 2019-04-22 20:17 谦信君 阅读(3291) 评论(0) 推荐(0) 编辑
摘要:一. 前言 房价永远是最让人头疼且激动的话题,尤其是在帝都,多少人一辈子都为了一套房子打拼。正好我也想用一个大家比较关心的话题作为案例,把目前我开发的这套软件进行一次完整的演练。从数据采集,到清洗,分析,和最终可视化和报告的呈现,实现一次完整的流程。一方面可以给大家切实的分享一些有用的信息,再者可以 阅读全文
posted @ 2017-05-31 15:22 谦信君 阅读(830) 评论(0) 推荐(0) 编辑
摘要:本篇文章是对php抓取页面的几种方法进行了详细的分析介绍,需要的朋友参考下在 做一些天气预报或者RSS订阅的程序时,往往需要抓取非本地文件,一般情况下都是利用php模拟浏览器的访问,通过http请求访问url地址, 然后得到html源代码或者xml数据,得到数据我们不能直接输出,往往需要对内容进行提... 阅读全文
posted @ 2015-07-28 15:11 谦信君 阅读(974) 评论(0) 推荐(0) 编辑
摘要:定义和用法strip_tags() 函数剥去 HTML、XML 以及 PHP 的标签。语法strip_tags(string,allow)参数描述string必需。规定要检查的字符串。allow可选。规定允许的标签。这些标签不会被删除。提示和注释注释:该函数始终会剥离 HTML 注释。这点无法通过a... 阅读全文
posted @ 2015-07-16 17:25 谦信君 阅读(478) 评论(0) 推荐(0) 编辑
摘要:Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页内容,发送表单,可以用来开发一些采集程序和小偷程序,本文章详细介绍snoopy的使用教程。Snoopy的一些特点:抓取网页的内容fetch抓取网页的文本内容(去除HTML标签)fetchtext抓取网页的链接,表单fetchlinksfe... 阅读全文
posted @ 2015-07-16 17:04 谦信君 阅读(811) 评论(0) 推荐(0) 编辑
摘要:db = $db; } function geturlfile($url) { $url = trim($url); $content = ''; if (extension_loaded('curl')) { $ch = ... 阅读全文
posted @ 2015-07-16 16:59 谦信君 阅读(360) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示