PHP下载/采集远程图片到本地
/** * 下载远程图片到本地 * * @param string $url 远程文件地址 * @param string $filenNme 保存后的文件名(为空时则为随机生成的文件名,否则为原文件名) * @param array $fileType 允许的文件类型 * @param string $dirName 文件保存的路径(路径其余部分根据时间系统自动生成) * @param int $type 远程获取文件的方式 * @return json 返回文件名、文件的保存路径 * @author 52php.cnblogs.com */ function download_image($url, $fileName = '', $dirName, $fileType = array('jpg', 'gif', 'png'), $type = 1) { if ($url == '') { return false; } // 获取文件原文件名 $defaultFileName = basename($url); // 获取文件类型 $suffix = substr(strrchr($url, '.'), 1); if (!in_array($suffix, $fileType)) { return false; } // 设置保存后的文件名 $fileName = $fileName == '' ? time() . rand(0, 9) . '.' . $suffix : $defaultFileName; // 获取远程文件资源 if ($type) { $ch = curl_init(); $timeout = 30; curl_setopt($ch, CURLOPT_URL, $url); curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout); $file = curl_exec($ch); curl_close($ch); } else { ob_start(); readfile($url); $file = ob_get_contents(); ob_end_clean(); } // 设置文件保存路径 //$dirName = $dirName . '/' . date('Y', time()) . '/' . date('m', time()) . '/' . date('d', time()); $dirName = $dirName . '/' . date('Ym', time()); if (!file_exists($dirName)) { mkdir($dirName, 0777, true); } // 保存文件 $res = fopen($dirName . '/' . $fileName, 'a'); fwrite($res, $file); fclose($res); return array( 'fileName' => $fileName, 'saveDir' => $dirName ); }
实战经历:
博客中有些图片是直接引用其他网站的,这些天不知道咋地,估计是对方做了防盗链操作,导致博客中的图片显示不出来,没办法,只好用PHP批量采集下来,并且批量替换博文中的图片地址:
/** * 批量下载博客中的图片到本地 */ public function index() { global $_G; $blogModel = model('Blog', 'blog'); $list = $blogModel->order('gid desc')->limit(10)->findPage(); $page = get_gpc('page') ? get_gpc('page') : 1; $totalPages = $list['totalPages']; $page = $page + 1; if ($page > $totalPages) { die('更新完毕!'); } foreach ($list['data'] as $val) { $content = $val['content']; $excerpt = $val['excerpt']; $_G['isContentUpdate'] = $_G['isExcerptUpdate'] = false; /* 内容 */ $content = preg_replace_callback("/src=\"(http:\/\/images\.cnblogs\.com\/cnblogs_com[^\"]+)\"/", function($matches) { global $_G; $_G['isContentUpdate'] = true; // 下载远程图片到本地 $res = download_image($matches[1], 'old', 'd:/PHP/xampp/htdocs/emlog/data/upload'); // 返回 下载后的图片url地址 return 'src="/data/upload/' . date('Ym', time()) . '/' . $res['fileName'] . '"'; }, $content); /* 摘要 */ $excerpt = preg_replace_callback("/src=\"(http:\/\/images\.cnblogs\.com\/cnblogs_com[^\"]+)\"/", function($matches) { global $_G; $_G['isExcerptUpdate'] = true; // 下载远程图片d到本地 $res = download_image($matches[1], 'old', 'd:/PHP/xampp/htdocs/emlog/data/upload'); // 返回 下载后的图片url地址 return 'src="/data/upload/' . date('Ym', time()) . '/' . $res['fileName'] . '"'; }, $excerpt); /* 更新数据库 */ $where = array( 'gid' => $val['gid'] ); $data = array(); if ($_G['isContentUpdate']) { $data['content'] = $content; } if ($_G['isExcerptUpdate']) { $data['excerpt'] = $excerpt; } if ($data) { $blogModel->where($where)->save($data); } } /* 更新下一页 */ $url = url('blog/Main/index', array('page' => $page)); $msg = '正在更新' . $page . '/' . $totalPages; redirect($url, 2, $msg); }