经普单位排重软件使用说明
单位排重软件使用说明
一、安装说明 3
1.1 系统需求 3
1.2数据库软件 3
1.3数据库管理软件flamerobin 3
1.4数据库管理软件IBExpert 3
1.5 excel或者wps 4
1.6 editplus 4
1.7 排重软件 superData.exe的设置 4
二、地址码导入与修改 4
2.1 第一种方式:批量导入 5
2.2 第二种方式:直接编辑 5
三、程序操作 6
3.1 排重步骤 6
3.2 整理部门excel表 6
3.3 导入 7
3.4 精确排重与模糊排重 7
3.4.1精确排重 7
3.4.2模糊排重 8
3.5 交叉表处理 9
3.6 地址码级别 9
3.7 设置地址码 10
3.8 地址码修改 10
3.9 数据导出 11
3.10 关于“保留”(KEEP)字段 11
3.11 表结构修改 11
3.12 备份数据库,压缩数据库 11
3.13 快速查询 12
3.14 任意表结构的生成及数据导入 12
3.15 数据汇总 12
3.16 快速查询注意 13
四、常见问题 13
4.1 setup.ini未修改数据库路径 13
4.2 数据库路径中包含中文名称 13
4.3 导入的文件非utf8格式 13
4.4 导出时选择的文件夹名称中包含中文 14
4.5 重要数据操作后未及时备份数据库 14
4.6 导出的csv用excel打开内容为乱码 14
一、安装说明
1.1 系统需求
操作系统:windows7、8、2003、2008任选一种。
内存:2G以上。
硬盘:剩余空间200G以上。
1.2数据库软件
Firebird-2.5.1.26351_1_Win32.exe (6.7M)。改软件为必须安装。
全部使用默认设置即可。
安装完成,服务列表中出现连个已经启动的服务:
Firebird Guardian、Firebird Server。
安装完成不必重启机器。
1.3数据库管理软件flamerobin
(可选安装)flamerobin-0.9.2-1-setup.exe (1.7M)
1.4数据库管理软件IBExpert
(可选安装)IBExpert (40M)
1.5 excel或者wps
用于excel文件数据格式整理。
1.6 editplus
该软件用于csv文件编码转换。
1.7 排重软件 superData.exe的设置
本软件不需要安装,直接运行superdata.exe即可。
运行前需要设置一下setup.ini文件中的数据库文件路径,如果路径中存在中文可能有问题。
[projectdb]
jp3=D:\jp3\jp3.fdb
二、地址码导入与修改
单位数据整理完成后,需要分区域导出数据,该区域信息来自sys_dzm表。
我们需要使用批量导入或者直接编辑两种方式修改区域信息。
2.1 第一种方式:批量导入
进入程序,左侧单击右键-显示系统表,右键点击sys_dzm表,选删除表,或者快捷键ctrl-d,删除地址码表。按F5键或者重新进入程序,可以看到sys_dzm表被删除。
编辑 SYS_地址码.csv 文件,形成本地的地址码。注意保存为utf8格式。
项目-导入-数据,点击外部文件按钮,选择 SYS_地址码.csv,点击 创建表结构,插入数据。
至此,地址码表生成完毕,并导入地址码数据。
注意:1、SYS_地址码.csv文件名不要更改。 2、文件编码格式应为utf8。
可能出现的问题:
点击外部文件按钮后,选中外部csv文件,文件内容在表格中显示,如果显示为乱码,原因是文件编码没有转换为utf8格式。请用editplus打开另存为utf8格式。
如果部分字段名显示为问号或者乱码,可以双击字段名称进行修改。
2.2 第二种方式:直接编辑
进入程序,左侧单击右键-显示系统表,点击sys_dzm表名称,直接在右侧编辑地址码数据即可。
三、程序操作
3.1 排重步骤
整理部门excel表;excel保存为CSV格式文本;用editpuls把csv格式文本转换为utf8格式;用排重程序导入uft8格式文件;
排重操作;分区域设置地址码;分区域导出csv数据并分发;
3.2 整理部门excel表
*需要删除所有空格,删除垃圾行,消除科学计数法。
*建议在Excel中增加两个字段,部门名称和单位类型,部门名称字段值可以设置为工商,税务等,单位类型设置为内资企业、外资企业等。这样可以在程序中进行批量操作。
*如果有新增字段,需要进入表结构修改界面增加字段。
*尽量使字段名与“部门单位数据”、“部门个体户数据”中文字段名一致,这样在导入设置界面可以批量对应。
例如,
部门单位表字段名:
单位名称,地址码,地址,编号,部门名称,单位类型,纳税人识别号,工商注册号,组织机构代码,登记注册号,负责人,区划名称,电话,行业,成立日期,单位行政区划,登记注册类型,保留
部门个体户表字段名:
单位名称,地址码,地址,编号,部门名称,单位类型,纳税人识别号,工商注册号,组织机构代码,登记注册号,负责人,区划名称,电话,行业,成立日期,单位行政区划,登记注册类型,保留
然后从excel另存为csv文件,然后用editplus打开该csv文件,另存为utf8格式的csv文件。
3.3 导入
导入的csv文件必须为UTF8格式。
项目-导入-数据,点外部文件,打开上面的utf8格式的csv。点导入设置,点部门单位数据或者部门个体户数据,点自动对应。如果在数据整理过程,中文字段名不一致,需要手工对应。检查对应结果,点导入。
注意,不能导入编号字段,编号字段值由数据库自动生成。
导入过程中,如果数据量较大,程序可能处于假死状态。此时可以打开log.txt文件,查看处理进度。
3.4 精确排重与模糊排重
3.4.1精确排重
检查并列出可能重复的记录。可以对所有字段进行排重操作。
精确排重:
选中单位表或者个体户表,然后选择一个字段,点检查重复按钮,则该字段的重复情况显示在表格中。
点击合并按钮,进行批量合并。
重复记录保留较长值字段。
合并后的记录,字段“保留(KEEP)”值设置为“HE”。
3.4.2模糊排重
模糊排重是针对单位或者个体户表中“单位名称”字段的操作。去掉单位名称中包含的地址信息后,根据简化区域信息与剩余名称及指定长度地址字段查找匹配记录。
例如,数据库中包含两条记录:
单位名称 地址
东营群利汽修有限责任公司 东营区西四路175号
东营市群利汽修有限责任公司 东营区西四路175号
这两个单位名称不同,但实际应为一个单位,通过模糊排重,可以查找出这两个单位,人工确认后予以合并。
记录范围:对指定范围的记录进行排重,例如 200 至 300。
地址长度:针对地址字段,使用该长度字符进行匹配。例如:东营市东城南一路266号, 地址长度12,则使用“东营市东”4个字进行匹配(每个汉字长度为3)。
地址信息包含在SYS_DZM表中。
点击开始按钮,程序按照参数设置进行查询操作。查询结束,如果有符合条件的记录,则在列表中显示查询结果。
双击一条结果,显示可能重复的记录。鼠标右击一条结果,点击设置合并,则批量合并时对该结果对应的记录进行合并。
点击批量合并按钮,对设置为合并的结果进行批量合并。
3.5 交叉表处理
该功能用于从A表中删除A、B两表中单位名称重复的数据。首先点查询,然后点删除。
3.6 地址码级别
SYS_DZM表中,level字段值定义了地址码级别。
在排重界面的快速查询选项卡中,地址码级别输入4,则可以选择设置县区级地址码,地址码级别输入为5,则可以选择设置乡镇级地址码。
3.7 设置地址码
对上面表格中列出的所有记录设置地址码。例如,下拉列表选中“河口区”,点击“设置地址码”,即可将查询列出的所有记录的地址码设置为“370503”。
3.8 地址码修改
主界面-表名称列表单击右键-显示系统表-点击SYS_DZM表,即可进行地址码编辑。
3.9 数据导出
地址码设置完成,使用快速查询-查询删除功能,选择地址码字段,输入地址码,点查询,即可查出所有符合该地址码的记录,然后导出csv数据。该文件可以向下级分发,向上级报送。
导出数据时,保存文件路径中不能包含汉字,否则出错。
3.10 关于“保留”(KEEP)字段
单位表和个体户表都必须设置这个字段。合并操作的时候使用。
合并后的记录,字段“保留(KEEP)”值设置为“HE”表示该记录为合并后的记录。
可以手工增加这个字段,步骤:
设计-表结构设计-选中表-字段管理部分,增加-英文名:KEEP,显示顺序:任意,字段类型:变长字符,大小:20,字段描述:保留。
3.11 表结构修改
可以修改表结构,增加减少字段,改变字段类型和字段属性。但是ID、KEEP、单位名称、地址码字段必须存在,不能删除。
3.12 备份数据库,压缩数据库
经过多次大量数据导入、删除操作之后,数据库体积可能明显增大。可以通过工具-数据库备份,数据库恢复操作进行数据库体积压缩。
备份后的数据库保存在bak目录。
3.13 快速查询
* 使用快速查询-查询删除功能,如果保持编辑框为空,点查询,则查询出所有该字段为空的记录。
* “保留”字段值为“HE”(合并后)的记录,参与排重、计数、查询等操作。
3.14 任意表结构的生成及数据导入
首先生成使用excel或者wps或者其他工具生成csv文件,该文件可以包含任意多个字段,字段名称可以为中文或者英文。
项目-导入-数据,点外部文件按钮,选择csv文件,该csv文件内容在表格中全部显示,并自动检测生成字段类型。此时可以双击字段名称,修改字段类型。
点击创建表结构按钮,则自动生成数据库表。
点击插入数据,则将所有数据插入到刚生成的表中。
3.15 数据汇总
设计-汇总表,定义汇总表的中文及英文名称,在视图字段设置部分,选择一个要汇总的表名称,然后点击增加按钮。
在左侧列表中选择刚定义的表名,右侧选中字段后:1、选择加和、计数、最大值等按钮;2、(必须)选中分组字段,点击分组字段按钮。
最后点击测试,可以看到分组汇总结果。
3.16 快速查询注意
*第一个查询条件:地址字段,前缀为东营区,查询,数量为40054。
该条件设置取反,查询,数量为70683.
40054+70683=110737
点击显示全部,数量为111066。111066<>70683 为什么?
原因:字段值为null(不是空格)的记录,不参与字符串比较查询。
把第一个查询条件改为:地址字段为空,查询,数量为329。70683+329=111066
四、常见问题
4.1 setup.ini未修改数据库路径
将导致无法连接数据库。
4.2 数据库路径中包含中文名称
将导致无法连接数据库。
4.3 导入的文件非utf8格式
导致出现乱码。
4.4 导出时选择的文件夹名称中包含中文
导出的文件中包含乱码或者导出过程出错。
4.5 重要数据操作后未及时备份数据库
导致误操作后不能恢复上一状态。
4.6 导出的csv用excel打开内容为乱码
这是因为导出的csv文件格式是utf8格式。解决办法:可以使用wps直接打开。如果使用excel,请首先用editplus将csv文件转换为ANSI格式,然后再用excel打开。
一、安装说明 3
1.1 系统需求 3
1.2数据库软件 3
1.3数据库管理软件flamerobin 3
1.4数据库管理软件IBExpert 3
1.5 excel或者wps 4
1.6 editplus 4
1.7 排重软件 superData.exe的设置 4
二、地址码导入与修改 4
2.1 第一种方式:批量导入 5
2.2 第二种方式:直接编辑 5
三、程序操作 6
3.1 排重步骤 6
3.2 整理部门excel表 6
3.3 导入 7
3.4 精确排重与模糊排重 7
3.4.1精确排重 7
3.4.2模糊排重 8
3.5 交叉表处理 9
3.6 地址码级别 9
3.7 设置地址码 10
3.8 地址码修改 10
3.9 数据导出 11
3.10 关于“保留”(KEEP)字段 11
3.11 表结构修改 11
3.12 备份数据库,压缩数据库 11
3.13 快速查询 12
3.14 任意表结构的生成及数据导入 12
3.15 数据汇总 12
3.16 快速查询注意 13
四、常见问题 13
4.1 setup.ini未修改数据库路径 13
4.2 数据库路径中包含中文名称 13
4.3 导入的文件非utf8格式 13
4.4 导出时选择的文件夹名称中包含中文 14
4.5 重要数据操作后未及时备份数据库 14
4.6 导出的csv用excel打开内容为乱码 14
一、安装说明
1.1 系统需求
操作系统:windows7、8、2003、2008任选一种。
内存:2G以上。
硬盘:剩余空间200G以上。
1.2数据库软件
Firebird-2.5.1.26351_1_Win32.exe (6.7M)。改软件为必须安装。
全部使用默认设置即可。
安装完成,服务列表中出现连个已经启动的服务:
Firebird Guardian、Firebird Server。
安装完成不必重启机器。
1.3数据库管理软件flamerobin
(可选安装)flamerobin-0.9.2-1-setup.exe (1.7M)
1.4数据库管理软件IBExpert
(可选安装)IBExpert (40M)
1.5 excel或者wps
用于excel文件数据格式整理。
1.6 editplus
该软件用于csv文件编码转换。
1.7 排重软件 superData.exe的设置
本软件不需要安装,直接运行superdata.exe即可。
运行前需要设置一下setup.ini文件中的数据库文件路径,如果路径中存在中文可能有问题。
[projectdb]
jp3=D:\jp3\jp3.fdb
二、地址码导入与修改
单位数据整理完成后,需要分区域导出数据,该区域信息来自sys_dzm表。
我们需要使用批量导入或者直接编辑两种方式修改区域信息。
2.1 第一种方式:批量导入
进入程序,左侧单击右键-显示系统表,右键点击sys_dzm表,选删除表,或者快捷键ctrl-d,删除地址码表。按F5键或者重新进入程序,可以看到sys_dzm表被删除。
编辑 SYS_地址码.csv 文件,形成本地的地址码。注意保存为utf8格式。
项目-导入-数据,点击外部文件按钮,选择 SYS_地址码.csv,点击 创建表结构,插入数据。
至此,地址码表生成完毕,并导入地址码数据。
注意:1、SYS_地址码.csv文件名不要更改。 2、文件编码格式应为utf8。
可能出现的问题:
点击外部文件按钮后,选中外部csv文件,文件内容在表格中显示,如果显示为乱码,原因是文件编码没有转换为utf8格式。请用editplus打开另存为utf8格式。
如果部分字段名显示为问号或者乱码,可以双击字段名称进行修改。
2.2 第二种方式:直接编辑
进入程序,左侧单击右键-显示系统表,点击sys_dzm表名称,直接在右侧编辑地址码数据即可。
三、程序操作
3.1 排重步骤
整理部门excel表;excel保存为CSV格式文本;用editpuls把csv格式文本转换为utf8格式;用排重程序导入uft8格式文件;
排重操作;分区域设置地址码;分区域导出csv数据并分发;
3.2 整理部门excel表
*需要删除所有空格,删除垃圾行,消除科学计数法。
*建议在Excel中增加两个字段,部门名称和单位类型,部门名称字段值可以设置为工商,税务等,单位类型设置为内资企业、外资企业等。这样可以在程序中进行批量操作。
*如果有新增字段,需要进入表结构修改界面增加字段。
*尽量使字段名与“部门单位数据”、“部门个体户数据”中文字段名一致,这样在导入设置界面可以批量对应。
例如,
部门单位表字段名:
单位名称,地址码,地址,编号,部门名称,单位类型,纳税人识别号,工商注册号,组织机构代码,登记注册号,负责人,区划名称,电话,行业,成立日期,单位行政区划,登记注册类型,保留
部门个体户表字段名:
单位名称,地址码,地址,编号,部门名称,单位类型,纳税人识别号,工商注册号,组织机构代码,登记注册号,负责人,区划名称,电话,行业,成立日期,单位行政区划,登记注册类型,保留
然后从excel另存为csv文件,然后用editplus打开该csv文件,另存为utf8格式的csv文件。
3.3 导入
导入的csv文件必须为UTF8格式。
项目-导入-数据,点外部文件,打开上面的utf8格式的csv。点导入设置,点部门单位数据或者部门个体户数据,点自动对应。如果在数据整理过程,中文字段名不一致,需要手工对应。检查对应结果,点导入。
注意,不能导入编号字段,编号字段值由数据库自动生成。
导入过程中,如果数据量较大,程序可能处于假死状态。此时可以打开log.txt文件,查看处理进度。
3.4 精确排重与模糊排重
3.4.1精确排重
检查并列出可能重复的记录。可以对所有字段进行排重操作。
精确排重:
选中单位表或者个体户表,然后选择一个字段,点检查重复按钮,则该字段的重复情况显示在表格中。
点击合并按钮,进行批量合并。
重复记录保留较长值字段。
合并后的记录,字段“保留(KEEP)”值设置为“HE”。
3.4.2模糊排重
模糊排重是针对单位或者个体户表中“单位名称”字段的操作。去掉单位名称中包含的地址信息后,根据简化区域信息与剩余名称及指定长度地址字段查找匹配记录。
例如,数据库中包含两条记录:
单位名称 地址
东营群利汽修有限责任公司 东营区西四路175号
东营市群利汽修有限责任公司 东营区西四路175号
这两个单位名称不同,但实际应为一个单位,通过模糊排重,可以查找出这两个单位,人工确认后予以合并。
记录范围:对指定范围的记录进行排重,例如 200 至 300。
地址长度:针对地址字段,使用该长度字符进行匹配。例如:东营市东城南一路266号, 地址长度12,则使用“东营市东”4个字进行匹配(每个汉字长度为3)。
地址信息包含在SYS_DZM表中。
点击开始按钮,程序按照参数设置进行查询操作。查询结束,如果有符合条件的记录,则在列表中显示查询结果。
双击一条结果,显示可能重复的记录。鼠标右击一条结果,点击设置合并,则批量合并时对该结果对应的记录进行合并。
点击批量合并按钮,对设置为合并的结果进行批量合并。
3.5 交叉表处理
该功能用于从A表中删除A、B两表中单位名称重复的数据。首先点查询,然后点删除。
3.6 地址码级别
SYS_DZM表中,level字段值定义了地址码级别。
在排重界面的快速查询选项卡中,地址码级别输入4,则可以选择设置县区级地址码,地址码级别输入为5,则可以选择设置乡镇级地址码。
3.7 设置地址码
对上面表格中列出的所有记录设置地址码。例如,下拉列表选中“河口区”,点击“设置地址码”,即可将查询列出的所有记录的地址码设置为“370503”。
3.8 地址码修改
主界面-表名称列表单击右键-显示系统表-点击SYS_DZM表,即可进行地址码编辑。
3.9 数据导出
地址码设置完成,使用快速查询-查询删除功能,选择地址码字段,输入地址码,点查询,即可查出所有符合该地址码的记录,然后导出csv数据。该文件可以向下级分发,向上级报送。
导出数据时,保存文件路径中不能包含汉字,否则出错。
3.10 关于“保留”(KEEP)字段
单位表和个体户表都必须设置这个字段。合并操作的时候使用。
合并后的记录,字段“保留(KEEP)”值设置为“HE”表示该记录为合并后的记录。
可以手工增加这个字段,步骤:
设计-表结构设计-选中表-字段管理部分,增加-英文名:KEEP,显示顺序:任意,字段类型:变长字符,大小:20,字段描述:保留。
3.11 表结构修改
可以修改表结构,增加减少字段,改变字段类型和字段属性。但是ID、KEEP、单位名称、地址码字段必须存在,不能删除。
3.12 备份数据库,压缩数据库
经过多次大量数据导入、删除操作之后,数据库体积可能明显增大。可以通过工具-数据库备份,数据库恢复操作进行数据库体积压缩。
备份后的数据库保存在bak目录。
3.13 快速查询
* 使用快速查询-查询删除功能,如果保持编辑框为空,点查询,则查询出所有该字段为空的记录。
* “保留”字段值为“HE”(合并后)的记录,参与排重、计数、查询等操作。
3.14 任意表结构的生成及数据导入
首先生成使用excel或者wps或者其他工具生成csv文件,该文件可以包含任意多个字段,字段名称可以为中文或者英文。
项目-导入-数据,点外部文件按钮,选择csv文件,该csv文件内容在表格中全部显示,并自动检测生成字段类型。此时可以双击字段名称,修改字段类型。
点击创建表结构按钮,则自动生成数据库表。
点击插入数据,则将所有数据插入到刚生成的表中。
3.15 数据汇总
设计-汇总表,定义汇总表的中文及英文名称,在视图字段设置部分,选择一个要汇总的表名称,然后点击增加按钮。
在左侧列表中选择刚定义的表名,右侧选中字段后:1、选择加和、计数、最大值等按钮;2、(必须)选中分组字段,点击分组字段按钮。
最后点击测试,可以看到分组汇总结果。
3.16 快速查询注意
*第一个查询条件:地址字段,前缀为东营区,查询,数量为40054。
该条件设置取反,查询,数量为70683.
40054+70683=110737
点击显示全部,数量为111066。111066<>70683 为什么?
原因:字段值为null(不是空格)的记录,不参与字符串比较查询。
把第一个查询条件改为:地址字段为空,查询,数量为329。70683+329=111066
四、常见问题
4.1 setup.ini未修改数据库路径
将导致无法连接数据库。
4.2 数据库路径中包含中文名称
将导致无法连接数据库。
4.3 导入的文件非utf8格式
导致出现乱码。
4.4 导出时选择的文件夹名称中包含中文
导出的文件中包含乱码或者导出过程出错。
4.5 重要数据操作后未及时备份数据库
导致误操作后不能恢复上一状态。
4.6 导出的csv用excel打开内容为乱码
这是因为导出的csv文件格式是utf8格式。解决办法:可以使用wps直接打开。如果使用excel,请首先用editplus将csv文件转换为ANSI格式,然后再用excel打开。