我们都知道在MySQL中批量insert的速度会比一条条insert快很多,在MySQL中批量更新我们可能使用update,replace into来操作,下面小编来给各位同学详细介绍MySQL 批量更新与性能吧。
批量更新
MySQL更新语句很简单,更新一条数据的某个字段,一般这样写:
UPDATE table SET field = 'value' WHERE other_field = 'other_value';
如果更新同一字段为同一个值,MySQL也很简单,修改下WHERE即可:
UPDATE table SET field='value' WHERE other_field in (val_1, val_2, ...);
那如果更新多条数据为不同的值,可能很多人会这样写:
即是循环一条一条的更新记录,一条记录update一次,这样性能很差,也很容易造成阻塞。
那么能不能一条sql语句实现批量更新呢?MySQL并没有提供直接的方法来实现批量更新,但是可以用点小技巧来实现。
UPDATE table
SET field = CASE id
WHEN 1 THEN 'value'
WHEN 2 THEN 'value'
WHEN 3 THEN 'value'
END
WHERE id IN (1,2,3)
这里使用了 CASE WHEN 这个小技巧来实现批量更新。
举个例子:
UPDATE categories
SET display_order = CASE id
WHEN 1 THEN 3
WHEN 2 THEN 4
WHEN 3 THEN 5
END
WHERE id IN (1,2,3)
这句SQL的意思是,更新display_order 字段,如果id=1 则display_order 的值为3,如果id=2 则 display_order 的值为4,如果id=3 则 display_order 的值为5。
即是将条件语句写在了一起。
这里的WHERE部分不影响代码的执行,但是会提高sql执行的效率。
确保sql语句仅执行需要修改的行数,这里只有3条数据进行更新,而WHERE子句确保只有3行数据执行。
如果更新多个值的话,只需要稍加修改:
到这里,已经完成一条MySQL语句更新多条记录了。
但是要在业务中运用,需要结合服务端语言,这里以php为例,构造这条MySQL语句:
$display_order = array(
1 => 4,
2 => 1,
3 => 2,
4 => 3,
5 => 9,
6 => 5,
7 => 8,
8 => 9
);
$ids = implode(',', array_keys($display_order));
$sql = "UPDATE categories SET display_order = CASE id ";
foreach ($display_order as $id => $ordinal) {
$sql .= sprintf("WHEN %d THEN %d ", $id, $ordinal);
}
$sql .= "END WHERE id IN ($ids)";
echo $sql;
这个例子,有8条记录进行更新,代码也很容易理解。
性能分析
当我使用上万条记录利用MySQL批量更新,发现使用最原始的批量update发现性能很差。
将网上看到的总结一下一共有以下三种办法:
1、批量update,一条记录update一次,性能很差
2、replace into 或者insert into ...on duplicate key update
replace into test_tbl (id,dr) values (1,'2'),(2,'3'),...(x,'y');
或者使用
insert into test_tbl (id,dr) values (1,'2'),(2,'3'),...(x,'y') on duplicate key update dr=values(dr);
3、创建临时表,先更新临时表,然后从临时表中update
CREATE TEMPORARY TABLE tmp (
id int(4) primary key,
dr varchar(50)
);
INSERT INTO tmp VALUES (0,'gone'), (1,'xx'),...(m,'yy');
UPDATE test_tbl, tmp SET test_tbl.dr=tmp.dr WHERE test_tbl.id=tmp.id;
注意:这种方法需要用户有temporary 表的create 权限。
下面是上述方法update 100000条数据的性能测试结果:
1、逐条UPDATE
2、REPLACE INTO
3、INSERT INTO ON DUPLICATE KEY UPDATE
4、CREATE TEMPLORARY TABLE 并 UPDATE
就测试结果来看,测试当时使用replace into性能较好。
注意:
REPLACE INTO 和 INSERT INTO ON DUPLICATE KEY UPDATE 的不同在于:
REPLACE INTO操作本质是对重复的记录先DELETE 后INSERT,如果更新的字段不全会将缺失的字段置为缺省值。
INSERT INTO则只是UPDATE重复记录,不会改变其它字段。
//实测临时表更新mysql的性能数据如下。
一条条更新执行结果,22079条记录
批量sql更新执行结果,性能有所提升但是并不高
临时表更新,提升的幅度很多
附上执行逻辑的代码
$strartTime=microtime(true); $optArr=array(PDO::MYSQL_ATTR_INIT_COMMAND => 'SET NAMES UTF8'); $dsn='mysql:host=172.12.10.155; port=3306; dbname=kana_task'; $pdoObj=new PDO($dsn, 'username', 'password', $optArr); $sql = "SELECT * FROM `kana_task`.`cdkey_list` "; echo $sql; $ret = $pdoObj->query($sql); if($ret instanceof PDOStatement) { while($row=$ret->fetch(PDO::FETCH_ASSOC)){ echo $row['id'].PHP_EOL; $allInfo[$row['id']]=$row; } } $pdoObj->exec('create table cdkey_list_tmp like cdkey_list;'); $baseStr='INSERT INTO `kana_task`.`cdkey_list_tmp` (id,overtime,`name`,`pid`,`content`,`aid`,`tid`,`type`) VALUES ' ; $i=$tnum=0; $sql=''; echo '查询耗时:'.(microtime(true)-$strartTime).PHP_EOL; //循环更新时间 foreach ($allInfo as $id=>$tmpVal){ $tmpVal['overtime']=$tmpVal['overtime']+1; $lineStr="({$tmpVal['id']},{$tmpVal['overtime']},'{$tmpVal['name']}',{$tmpVal['pid']},'{$tmpVal['content']}',{$tmpVal['aid']},{$tmpVal['tid']},{$tmpVal['type']}),"; $sql=$sql.$lineStr; $i++; $tnum++; if($i>=500){//每次插入500条 $sql=substr($sql,0,-1); $sql=$baseStr.$sql.";"; $pdoObj->exec($sql); echo $tnum.PHP_EOL; $i=0; $sql=''; } //if($tnum>15) break; } echo '插入完成耗时:'.(microtime(true)-$strartTime).PHP_EOL; $pdoObj->exec('UPDATE `kana_task`.`cdkey_list`,`kana_task`.`cdkey_list_tmp` SET cdkey_list.overtime=cdkey_list_tmp.overtime WHERE cdkey_list.id=cdkey_list_tmp.id;'); echo '更新完成耗时:'.(microtime(true)-$strartTime).PHP_EOL; //清空临时表 $pdoObj->exec('truncate table `kana_task`.`cdkey_list_tmp`;'); echo '总耗时:'.(microtime(true)-$strartTime).PHP_EOL; var_dump(count($allInfo));exit; exit;
使用Replace into 方式更新的测试结果
此方法和临时表的性能差不多,但是操作更加简单,SQL逻辑也简单,
但是存在字段变更或者其它操作导致的其它非必要更新字段值被误写的风险
如果是千万级别的数据表。建议是分批次更新。后续更好的优化方式欢迎大家拍砖。