如何利用Oracle外部表导入文本文件的数据

同事最近在忙数据一致性比对工作，需要对不同文本文件中的数据进行比对，有的文件较大，记录较多，如果用普通的文本编辑器打开的话，很显然，会很卡，甚至打不开。

基于此，可将该文本文件的数据导入到数据库中，在集合的层面进行比对。

那么如何将文本文件的数据导入到数据库中呢？在这里，主要利用了Oracle的外部表特性。

Oracle外部表支持两种类型的驱动：一种是ORACLE_LOADER，外部表的数据必须来源于文件文件，另一种则是ORACLE_DATAPUMP，外部表的数据必须是二进制dump文件，该dump文件是先前将Oracle内部表的数据导入到外部表中填充的文件。很显然，Oracle希望将数据保留在数据库内部进行处理。

首先，我们来看一下该文本文件的大小及记录。

[oracle@node2 ~]$ du -sm P_20150626010000_2002371.0003479598 
274    P_20150626010000_2002371.0003479598
[oracle@node2 ~]$ wc -l P_20150626010000_2002371.0003479598 
2899265 P_20150626010000_2002371.0003479598

从上面的输出可以看出，该文件274M，有2899265条记录。

其次，构建创建外部表语句。

CREATE TABLE emp_load
   (subsid number(18),
    servnumber VARCHAR2(20 CHAR),
    subsprodid NUMBER(18),
    prodid VARCHAR2(32 CHAR),
    startdate date,
    enddate  date, 
    owner VARCHAR2(4 CHAR))
ORGANIZATION EXTERNAL
   (TYPE ORACLE_LOADER
    DEFAULT DIRECTORY tmp
    ACCESS PARAMETERS
      (RECORDS DELIMITED BY NEWLINE
        FIELDS TERMINATED BY "|"
             ( subsid      DECIMAL EXTERNAL,
               servnumber  CHAR(20),
               subsprodid  DECIMAL EXTERNAL,
               prodid  CHAR(32),
                startdate date "yyyymmddhh24miss",
               enddate date "yyyymmddhh24miss",
               owner   CHAR(4) 
              )
      )
    LOCATION ('P_20150626010000_2002371.0003479598')
   );

注意，目录tmp必须存在，因为我是在scott用户下执行的，所以scott用户必须对该路径有读写权限。

第三、在scott用户下执行该建表语句。

第四、查看生成的外部表是否有问题

SQL> select count(*) from emp_load;

      COUNT(*)
------------------
       2899265

记录与wc-l查看的记录数吻合。

注意，建表过程中没有报错并不一定意味着数据已经成功加载在外部表中。必须通过查询外部表来判定数据是否已成功加载，倘若有错误提示，可参看当前目录下生成的日志文件，具体在本例中，是EMP_LOAD_2000.bad和EMP_LOAD_2000.log。

当然，外部表中的数据只能查询，不能做DML操作，譬如，随机删除表中的一条数据

SQL> delete from emp_load where rownum=1;
delete from emp_load where rownum=1
            *
ERROR at line 1:
ORA-30657: operation not supported on external organized table

如果想对该外部表数据进行DML操作，可先将外部表的数据导入到内部表中。具体步骤如下：

SQL> create table test as select * from emp_load where 1=0;

Table created.

SQL> INSERT /*+ APPEND */ INTO test select * from emp_load;

2899265 rows created.

Elapsed: 00:01:00.29
SQL> select * from test where rownum<=100;
select * from test where rownum<=100
              *
ERROR at line 1:
ORA-12838: cannot read/modify an object after modifying it in parallel

SQL> commit;

Commit complete.

SQL> select * from test where rownum<=100;

在这里，为了节省时间，我用了直接路径插入，可以看出，插入近300万数据，只用了1分左右的时间，考虑到我虚拟机上的数据库，只给它分配了300M的内存，加载的效率还是相当可观的。

SQL> show parameter memory

NAME                     TYPE     VALUE
------------------------------------ ----------- ------------------------------
hi_shared_memory_address         integer     0
memory_max_target             big integer 300M
memory_target                 big integer 300M
shared_memory_address             integer     0

后来，测试了一下传统路径插入所消耗的时间，为了和直接路径插入进行比较，剔除SQL解析，data buffer等因素的影响，清空了共享池和buffer cache，具体如下：

SQL> conn /as sysdba
Connected.
SQL> alter system flush shared_pool;

System altered.

SQL> alter system flush buffer_cache;

System altered.

SQL> conn scott/tiger
Connected.
SQL> set timing on
SQL> insert into test select * from emp_load;

2899265 rows created.

Elapsed: 00:01:05.36

用传统路径插入（即会产生redo日志），耗时1分5秒，相对于直接路径插入，两者效率相差不大，看来还是数据量较小，不能明显的体现直接路径插入速度上的优势。

注意：在SQL*PLUS中，number字段的输出默认为10，这样会导致对于937116510102250300这样的数值，可能会显示为9.3712E+17，在这里，可通过set numwidth 18来显示完整的number字段的值。

posted @ 2015-07-15 13:50 iVictor 阅读(3445) 评论(0) 收藏举报

刷新页面返回顶部

SlowTech

生活本应就是慢的

如何利用Oracle外部表导入文本文件的数据

公告