shell爬虫--抓取某在线文档所有页面
在线教程一般像流水线一样,页面有上一页下一页的按钮,因此,可以利用shell写一个爬虫读取下一页链接地址,配合wget将教程所有内容抓取。
以postgresql中文网为例。下面是实例代码
#!/bin/sh start_URL="http://www.postgres.cn/docs/9.6/preface.html" end_URL="http://www.postgres.cn/docs/9.6/bookindex.html" URL=$start_URL while [ $URL != $end_URL ];do curl -s $URL >tmp.txt wget $URL -P psql grep -n 'ACCESSKEY="N"' tmp.txt > tmp2.txt cut -f1 -d":" tmp2.txt | head -n 1 > tmp3.txt let LINE=`cat tmp3.txt` let LINE-- sed -n "${LINE}p" tmp.txt > tmp4.txt sed -i 's/HREF="//g' tmp4.txt sed -i 's/"//g' tmp4.txt sURL=`cat tmp4.txt` cat tmp4.txt >> allurl.txt FULLURL="http://www.postgres.cn/docs/9.6/$sURL" URL=$FULLURL done rm -rf tmp.txt tmp2.txt tmp3.txt tmp4.txt
说明:
1、URL 要下载的html文件路径
2、sURL html文件的相对路径
3、FULLURL sURL和模板拼接后的完整url
4、tmp.txt 用于保存curl取得的页面数据
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 提示词工程——AI应用必不可少的技术
· Open-Sora 2.0 重磅开源!
· 周边上新:园子的第一款马克杯温暖上架