分享一个百万数量级的测试学习用的mysql数据集

TEST_DB

带有集成测试套件的示例数据库,用于测试应用程序和数据库服务器

此存储库已从Launchpad迁移

请参阅MySQL文档中的用法

它来自哪里

原始数据由西门子企业研究中心的Fusheng Wang和Carlo Zaniolo创建。数据采用XML格式。http://timecenter.cs.aau.dk/software.htm

Giuseppe Maxia制作了关系模式,Patrick Crews以关系格式导出数据。

该数据库包含大约300,000个员工记录,其中包含280万个工资条目。导出数据是167 MB,这不是很大,但是足够重,不足以进行测试。

生成了数据,因此存在不一致和微妙的问题。我们决定不更改内容,而是将其删除,并将这些问题用作数据清理练习。

先决条件

您需要一个MySQL数据库服务器(5.0+)并通过具有以下权限的用户运行以下命令:

SELECT, INSERT, UPDATE, DELETE, 
CREATE, DROP, RELOAD, REFERENCES, 
INDEX, ALTER, SHOW DATABASES, 
CREATE TEMPORARY TABLES, 
LOCK TABLES, EXECUTE, CREATE VIEW

安装:

  1. 下载存储库
  2. 将目录更改为存储库

然后跑

mysql < employees.sql

如果要使用两个大型分区表进行安装,请运行

mysql < employees_partitioned.sql

测试安装

安装后,您可以运行以下之一

mysql -t < test_employees_md5.sql
# OR
mysql -t < test_employees_sha.sql

例如:

mysql  -t < test_employees_md5.sql
+----------------------+
| INFO                 |
+----------------------+
| TESTING INSTALLATION |
+----------------------+
+--------------+------------------+----------------------------------+
| table_name   | expected_records | expected_crc                     |
+--------------+------------------+----------------------------------+
| employees    |           300024 | 4ec56ab5ba37218d187cf6ab09ce1aa1 |
| departments  |                9 | d1af5e170d2d1591d776d5638d71fc5f |
| dept_manager |               24 | 8720e2f0853ac9096b689c14664f847e |
| dept_emp     |           331603 | ccf6fe516f990bdaa49713fc478701b7 |
| titles       |           443308 | bfa016c472df68e70a03facafa1bc0a8 |
| salaries     |          2844047 | fd220654e95aea1b169624ffe3fca934 |
+--------------+------------------+----------------------------------+
+--------------+------------------+----------------------------------+
| table_name   | found_records    | found_crc                        |
+--------------+------------------+----------------------------------+
| employees    |           300024 | 4ec56ab5ba37218d187cf6ab09ce1aa1 |
| departments  |                9 | d1af5e170d2d1591d776d5638d71fc5f |
| dept_manager |               24 | 8720e2f0853ac9096b689c14664f847e |
| dept_emp     |           331603 | ccf6fe516f990bdaa49713fc478701b7 |
| titles       |           443308 | bfa016c472df68e70a03facafa1bc0a8 |
| salaries     |          2844047 | fd220654e95aea1b169624ffe3fca934 |
+--------------+------------------+----------------------------------+
+--------------+---------------+-----------+
| table_name   | records_match | crc_match |
+--------------+---------------+-----------+
| employees    | OK            | ok        |
| departments  | OK            | ok        |
| dept_manager | OK            | ok        |
| dept_emp     | OK            | ok        |
| titles       | OK            | ok        |
| salaries     | OK            | ok        |
+--------------+---------------+-----------+

免责声明

据我所知,这些数据是伪造的,并不符合真实的人。与现有人的任何相似之处纯属巧合。

源地址: https://github.com/datacharmer/test_db

posted @ 2019-07-08 22:37  保军Baojun  阅读(3725)  评论(0编辑  收藏  举报