手动提取百度文库的文章
感谢 https://zhidao.baidu.com/question/476364929.html
1、用chrome打开文章
2、ctrl+shift+i 进入检查模式
3、提取元素
百度文库很可恶,把文章内容拆成了一段一段的。
点选页面文字内容,对应找到代码里对应的div。
右键 copy --> copy element
粘贴到notepad++ 里面
4、利用正则表达式剔除html 标签
<[^>]+>
感谢 https://zhidao.baidu.com/question/476364929.html
1、用chrome打开文章
2、ctrl+shift+i 进入检查模式
3、提取元素
百度文库很可恶,把文章内容拆成了一段一段的。
点选页面文字内容,对应找到代码里对应的div。
右键 copy --> copy element
粘贴到notepad++ 里面
4、利用正则表达式剔除html 标签
<[^>]+>