随笔- 438 文章- 0 评论- 75 阅读- 169万

Wget/httrack 爬取整站资源

wget 是一个从网络上自动下载文件的自由工具，支持通过 HTTP、HTTPS、FTP 三个最常见的 TCP/IP协议下载，并可以使用 HTTP 代理。”wget” 这个名称来源于 “World Wide Web” 与 “get” 的结合。

yum install -y wget
wget -c -r -npH -k -nv http://www.baidu.com

参数说明

-c：断点续传
-r：递归下载
-np：递归下载时不搜索上层目录
-nv：显示简要信息
-nd：递归下载时不创建一层一层的目录,把所有文件下载当前文件夹中
-p：下载网页所需要的所有文件(图片,样式,js文件等)
-H：当递归时是转到外部主机下载图片或链接
-k：将绝对链接转换为相对链接,这样就可以在本地脱机浏览网页了
-L: 只扩展相对连接，该参数对于抓取指定站点很有用，可以避免向宿主主机

wget.exe -d -S -O - http://lyshark.com # 显示请求和响应的headers
wget -c -r -npH -k -nv http://lyshark.com # 爬取整个页面
--user-agent="Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.16 (KHTML, like Gecko) Chrome/10"

HTTrack是一个免费并易于使用的线下浏览器工具，全称是HTTrack Website Copier for Windows，它能够让你从互联网上下载整个网站进行线下浏览。

yum install -y httrack
httrack "https://www.baidu.com" -o "/root" "+*.https://www.baidu.com*" -v

页面渲染工具

#安装所需要的包：
yum install -y yum-utils device-mapper-persistent-data lvm2
docker pull scrapinghub/splash
docker run -d -p 8050:8050 scrapinghub/splash
#通过浏览器访问8050端口验证安装是否成功

文档转自: https://www.cnblogs.com/LyShark/p/9063328.html

posted @ 2021-10-28 10:01 程序媛李李李李蕾阅读(504) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

公告

福利专区

👉 100 套各行业大数据可视化炫酷大屏 H5 模板

昵称：程序媛李李李李蕾
园龄： 8年3个月
粉丝： 58
关注： 21

最新随笔

随笔分类 (257)

随笔档案 (437)

阅读排行榜

评论排行榜

推荐排行榜

最新评论

1. Re:控制台屏蔽某console的输出
找了很久，太棒啦！
--喵喵侠
2. Re:网页图片提取助手(支持背景图、选择dom范围)
网页在线提取图片
--ercom
3. Re:突发：鸿蒙之祖华为在 Inula 官网声称可“避免重复运行组件”但“组件渲染次数”是写死的
我居然好好看完了这满嘴黄腔的文笔方式...
--?+.史莱姆|
4. Re:关于 docsify ssr 的研究
@hnha 请问解决了吗？...
--啦啦小西牛
5. Re:突发：鸿蒙之祖华为在 Inula 官网声称可“避免重复运行组件”但“组件渲染次数”是写死的
@超灵收到，支持，[抱拳]，希望越来越好。...
--程序媛李李李李蕾
6. Re:突发：鸿蒙之祖华为在 Inula 官网声称可“避免重复运行组件”但“组件渲染次数”是写死的
我是openInula的开发者，官网上的例子由于在线sandbox还没有做好，所以做了个硬编码的显示效果。响应式功能还在开发中，在gitee仓库的reactive分支，我们稍后引用reactive分支...
--超灵
7. Re:这下好了，Visual Studio(Not Code) for Mac 不维护了
也不一定凉，搞不好出个跨平台版的vs，毕竟vs for mac不能算是vs. 不过，微软是少数能以超大规模运营的云服务提供商之一，所以大力发展云相关的产品是未来的方向，比如类似云编程集成环境，或叫云分...
--秋天里的麦子
8. Re:这下好了，Visual Studio(Not Code) for Mac 不维护了
@Elephant象哈哈哈哈...
--程序媛李李李李蕾
9. Re:这下好了，Visual Studio(Not Code) for Mac 不维护了
这个 Not Code就比较调皮了
--Elephant象
10. Re:js转义和反转义html
@Elephant象试试在代码里直接写 emoji 。前者不能显示 emoji 图片，是因为直接把 Unicode 编码写入代码中，浏览器在渲染时无法正确识别和解析这个编码，它只会把该编码作为普通...
--程序媛李李李李蕾
11. Re:js转义和反转义html
我现在遇到一个问题，在input的value值上设置为emoji \u{1F5D1} 如果是在html中直接写为：<input class="danger-btn" type="button" val...
--Elephant象
12. Re:JavaScript 调试常见报错以及原因
不错，写得很好
--observero
13. Re:使用 node 创建代理服务器
注意：代码中使用的依赖版本
- express@0.19.1
- http-proxy-middleware@4.16.4
--程序媛李李李李蕾
14. Re:如何屏蔽某个js文件中的 console
@夏大师已更新解决方案。...
--程序媛李李李李蕾
15. Re:如何屏蔽某个js文件中的 console
@小巷陌影已更新解决方案。...
--程序媛李李李李蕾
16. Re:如何屏蔽某个js文件中的 console
那不是自己也用不了console了
--夏大师
17. Re:js中可以直接使用id而不用获取id
很厉害，今天突然发现不获取 id 也可以使用 id 元素。我就说浏览器为什么不报错
--sssschenyi
18. Re:关于 h5 获取摄像头图像
如果要在 http 模式下获取摄像头，可以配置 chrome: chrome://flags/#unsafely-treat-insecure-origin-as-secure...
--我的过去
19. Re:unicloud图床免费云存储图床源码
@jiangwanqiang 有可能...
--我的过去
20. Re:unicloud图床免费云存储图床源码
大蕾哥?
--jiangwanqiang