浏览器中复制不能复制的文档并使用word通配符进行高级替换整理

使用谷歌浏览器找到自己需要的文档却不能复制,复制并整理的解决办法如下:

在浏览器页面按“F12”,出现编码页面:

选择“Console”选项卡,在命令提示后输入“document.body.innerText”后回车,即得到所需要的文本。与网页上的展示对比

 

 

 选择复制,或点击文末的“Copy”拷贝全文,打开work新建文档粘贴进去。

我们对网页文档和复制下来的代码进行对比:

网页展示:

 

 

复制下来的文本为: 

 

 

复制粘贴的文本中,每个新行都是上一行的中文汉字后跟两个“\n\n”再跟英文字符作为分隔。我们需要将这种规则的字符段提取出来将“\n\n”替换为word中的回车。

word中按“ctrl+H”后作如下配置后进行全文替换:

 

 

 其中各选项说明如下:

  查找内容(N):“([一-龥])(\\n)(\\n)([a-zA-Z])”中的四个元组代表4个字符,“[一-龥]”匹配所有汉字,为第1个元组;“\\n”匹配特殊字符“\n”,按照文本中的内容有连续两个,匹配第2、3两个元组;“[a-zA-Z]”匹配一个英文字符,为第4个元组。

  替换为(I):“\1^p\4”中“\1”将查找到的第1个元组原样保留;“^p”为添加一个回车;“\4”将查找的第4个元组原样保留。第2、第3个元组不再保留丢弃。

  务必选中“搜索选项”中的“使用通配符”复选框,否则word无法识别查找替换内容。

点击“全部替换(A)”后是这样的:

 

 

再将页码和分页广告部分分离出来手工删除:

 

 

 

 

这里我们看到已经基本将表格内容展示出来了。随后再将连续两个“\n\n”替换为制表符,按键“ctrl+H”设置查找替换如下:

 

 

 最终成为按行以制表符分隔的word文档。

如有需要,还可以将word文档另存为txt后使用excel打开设置表列分隔符为制表符制成excel的表格,查询时更加清晰。具体操作如下:

将word文档另存为txt文档:

 

 

这里选择“其他编码(O)”为“简体中文(GB18030)”,否则会出现“标记为红色的文字将无法用所选编码正确保存”的错误提示如下:

 

 笔者使用的word为2019版office。

使用excel打开上述txt文件,文件原始格式选择刚才存储txt文档时使用的“简体中文(GB18030)”,否则会有部分不兼容的情况。

 

 

即可看到熟悉的分列提示,按需要设置:

 

 

最终转换为excel表格成功。

 

posted @ 2021-08-14 20:21  数码爬坑  阅读(1455)  评论(0编辑  收藏  举报