短网址探究

引言

  短网址司空见惯,比如说下面这些

  http://dwz.cn/CSW6Y => http://www.cnblogs.com/iforever/p/4313704.html

  http://dwz.cn/CSWuP => http://www.cnblogs.com/iforever/p/4279006.html ,等等

  访问这些网址的时候,前后一对的指向同一个页面,我这里只是在举例子,这些短网址在weibo或者类似的社交网络中经常见到,由于原始链接地址特别长,这个时候短网址就会大显威力,简短好记,但也有他的缺点,比如说短网址不一定直接看出网址中的一些信息(在长网址中是可以看到一些信息的)。

  整天接触这个,以至于在还没有真正弄明白他的原理的时候就在思想中烙下了“没什么”的烙印,这就错过了一些知识,这种情况在心理学上应该叫心里暗示吧,有人知道是这样吗?

原理

  首先我猜测这个是通过重定向实现的,dwz.cn是一个服务器,用来接收一些短网址,这些短网址是经过dwz.cn处理之后的,在dwz.cn中有该短网址对应的长网址的记录,然后从数据库中获取短网址对应的长网址,然后302重定向。看看具体是不是这样的。

  通过浏览器访问http://dwz.cn/CSW6Y,对请求进行分析(这里使用chrome的调试工具,也可以使用wireshark之类的工具),可以得到下面的数据:

  没错,可以看到在访问http://dwz.cn/CSW6Y的时候确实进行了重定向,定向到新的地址,这个新地址正好是该短地址对应的唯一的长地址,剩下的过程就和普通访问http://www.cnblogs.com/iforever/p/4313704.html这个地址时候的一样了。

注意

  从短链接到长连接,还需要配置下rewrite,这样可以最大限度的减少长度,省去类似index.php?url=这样的字符串,而直接是http://dwz.cn/SDGHSi这样的格式,url重写配置很简单,我用的是新浪云测试的,下面是配置的rewrite规则

name: abit
version: 1


handle:
- rewrite: if (!-d && !-f && path ~ "/(.*)$") goto "do.php?url=$1&act=out"

  handle:后面的就是rewrite规则,新浪云的具体的详细规则到这里看http://sae.sina.com.cn/doc/php/runtime.html#php-app-config,很简单,nginx、apache的配置也类似。

  重定向完成之后还有一个要注意的地方就是在传递参数的时候要进行urlencode,重定向之前要用urldecode。在未使用urlencode的时候传递url类型的参数,在获取的时候可能丢掉部分信息,因此在生成短链接之前传递参数的时候要将url进行escape处理,将特殊字符串进行编码,在访问短链接处理的时候需要对编码的url进行urldecode处理,还原成正常的链接,否则在header跳转的时候不会把该链接当成一个正常的url,跳转之后会把该url附加的之前页面的主机后面类似http://abit.sinaapp.com/www.cnblogs.com,可能会出现错误,因此,这里要特别注意。

  sae的在重定向的时候会有一个问题,会将双反斜线自动过滤为一个,例如从http://abit.sinaapp.com/到http:/abit.sinaapp.com/,注意,这里少了个反斜线,这在处理的时候要特别注意,不然可能会遇到不必要的麻烦。

编码

  主要的处理部分

<?php
class snapshotUrl{
    //进行编码的数据库,没6位二进制数对应一个字符,一共需要64位,因此选取
    //52+10+2个特殊字符
    private static $basedb = array(
        '(',')','a','b','c','d',
        'e','f','g','h','i','j',
        'k','l','m','n','o','p',
        'q','r','s','t','u','v',
        'w','x','y','z','A','B',
        'C','D','E','F','G','H',
        'I','J','K','L','M','N',
        'O','P','Q','R','S','T',
        'U','V','W','X','Y','Z',
        '0','1','2','3','4','5',
        '6','7','8','9',
    );

    private function long2short($url){
        $hex = md5($url);
        $out = '';
        $hex = 0x7FFFFFFF & (1 * ('0x'.substr($hex, 0, 8)));
        for($i=0; $i<5; $i++){
            $index = 0x3f & $hex;
            $out .= self::$basedb[$index];
            $hex = $hex>>6;
        }
        return $out;
    }

    public function retJson($arr){
        return json_encode($arr);
    }

    //对url进行映射保存
    public function dispose($url, $act){
        $mysql = new SaeMysql();
        switch ($act) {
            case 'in':
                $short = $this->long2short($url);
                $url = addslashes($url);
                $sql = "insert into `tiny_url`(`short`,`long`) values ('{$short}','{$url}')";
                $mysql->runSql($sql);
                if($mysql->errno() != 0){
                    echo "生成失败";
                }else{
                    echo "http://abit.sinaapp.com/{$short}";
                }
                break;
            case 'out':
                if(strlen($url) > 5)
                    echo $this->retJson(array("code"=>"-1","msg"=>"没有这条记录"));
                $sql = "select * from `tiny_url` where `short`='{$url}' limit 1";
                $data = $mysql->getData($sql);
                if(!$data) {
                    echo $this->retJson(array("code"=>"-1","msg"=>"没有这条记录"));
                }else{
                    $location = urldecode($data[0]['long']);
                    header("Location: {$location}");
                    exit();
                }
                break;
            
            default:
                # code...
                break;
        }
    }    
}

$url = isset($_GET['url']) ? $_GET['url'] : null;
$act = isset($_GET['act']) ? $_GET['act'] : null;
$snapshotUrl = new snapshotUrl();
if($url === null || $act === null)
    echo $snapshotUrl->retJson(array("code"=>"-1","msg"=>"参数错误"));

$snapshotUrl->dispose($url, $act);

 

结果

  我做了个可以测试的小网页:

  http://abit.sinaapp.com/有兴趣的可以试试

 

  本文版权归作者iforever(luluyrt@163.com)所有,未经作者本人同意禁止任何形式的转载,转载文章之后必须在文章页面明显位置给出作者和原文连接,否则保留追究法律责任的权利。

posted @ 2015-03-07 12:06  奔跑的Man  阅读(2371)  评论(6编辑  收藏  举报