爬虫技术——抓取新浪云邀请排名
本文介绍如何抓取新浪云邀请排名。
一、新浪云邀请
新浪云邀请新用户并实名认证,可以获得云豆。使用云豆就可以免费使用新浪云的服务器。目前,方倍工作室的多个项目都部署在新浪云上。其SAE的应用非常好用。
二、抓取方法
使用simple_html_dom的方式先抓取整个页面,再进行元素分析。将邀请者,累计获得奖励(云豆),累计邀请人数三项抓取出来。并实时发送到自己的微信上。
1 require_once('../../class/simple_html_dom.php'); 2 3 $sinaArray = array(); 4 $sinaArray[] = array("Title" =>"新浪云邀请排名", "Description" =>"方倍工作室", "PicUrl" =>"", "Url" =>""); 5 6 try 7 { 8 $url = "http://www.sinacloud.com/special/activity/invite.html?from=ucenter"; 9 $ch = curl_init(); 10 curl_setopt($ch, CURLOPT_URL, $url); 11 curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); 12 $output = curl_exec($ch); 13 curl_close($ch); 14 15 $html_main = str_get_html($output); 16 if (!isset($html_main)){ 17 $html_main->clear(); 18 return "文件载入出错!"; 19 } 20 21 $i = 1; 22 // $content = ""; 23 foreach($html_main->find('tbody tr') as $hotNewsInfo) 24 { 25 $name = @$hotNewsInfo->find('td', 1)->plaintext; 26 if (empty($name) || $i > 9){ 27 continue; 28 } 29 30 $bean = @$hotNewsInfo->find('td', 2)->plaintext; 31 $people = @$hotNewsInfo->find('td', 3)->plaintext; 32 $title = "名次:".$i."\t奖励:".$bean."\t人数:".$people."\n用户:".$name; 33 $sinaArray[] = array("Title" =>$title, "Description" =>"", "PicUrl" =>"", "Url" =>""); 34 // $content .= "名次:".$i."\n微博:".$name."\n云豆:".$bean."\n人数".$people; 35 // echo $i."\t".$name."\t".$bean."\t".$people."\n"; 36 $i++ ; 37 } 38 $html_main->clear(); 39 }catch (Exception $e){ 40 echo $e; 41 exit; 42 }
本文来自博客园,作者:方倍工作室,转载请注明原文链接:https://www.cnblogs.com/txw1958/p/crawler-sinacloud-invitaions.html