【TPC-DS】处理数据的脚本
用途:tpc-ds利用dbgen生成的数据,有些数据中有| |,之间是没有数据的,若直接导入到创建的表中,会提示失败,因此,在写入数据前,要先对生成的数据进行处理
处理数据脚本存放的目录(可以自定义的存放,按照自己存放的目录,要修改脚本),此时我将处理数据的脚本与生成的数据放在了同一目录下
脚本内容如下DATA_DIR=/home/minio/data/tpc-ds/tpc-ds-tool/test_dat #【重要】根据自己存放脚本的目录修改
# 用0来替换第一个字段的NULL值,把^|替换成0| # 用0来替换中间字段的NULL值, 把||替换成|0| # 用0来替换最后一个字段的NULL值,把|$替换成|0 for s_f in `ls *dat` do echo "$s_f" i=1 while [ `egrep '\|\||^\||\|$' $s_f |wc -l` -gt 0 ] do echo $i sed 's/^|/0|/g;s/||/|0|/g;s/|$/|0/g' -i $s_f ((i++)) done done #把date字段的0值替换成 0000-00-00 for s_f in item.dat store.dat web_page.dat web_site.dat call_center.dat #【重要】如果脚本没有和生成的数据放在同一个目录下,此处要添加数据存放的路径
#for s_f in $DATA_DIR/item.dat $DATA_DIR/store.dat $DATA_DIR/web_page.dat $DATA_DIR/web_site.dat $DATA_DIR/call_center.dat
do # 处理第一、第二个date都是NULL的 sed 's/^\([A-Za-z0-9]*|[A-Za-z0-9]*\)|0|0|\(.*\)/\1|0000-00-00|0000-00-00|\2/' -i $s_f # 处理第二个date是NULL的 sed 's/^\([0-9A-Za-z]*|[A-Za-z0-9]*|[0-9]\{4\}-[0-9]\{2\}-[0-9]\{2\}\)|0|\(.*\)/\1|0000-00-00|\2/' -i $s_f # 处理第一个date是NULL的 sed 's/^\([0-9A-Za-z]*|[A-Za-z0-9]*\)|0|\([0-9]\{4\}-[0-9]\{2\}-[0-9]\{2\}|.*\)/\1|0000-00-00|\2/' -i $s_f done
1.作者:Syw 2.出处:http://www.cnblogs.com/syw20170419/ 3.本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。 4.如果文中有什么错误,欢迎指出。以免更多的人被误导。 |
分类:
TPC-DS性能测试
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· 单线程的Redis速度为什么快?