以一种"廉价"的方式获取页面的标题(By downmoon)

有园子里的朋友问到:
“我需要得到一个web page的title,因为这个title一般都比较靠前,只要取得html 的前面少量内容就可以了。因为要取得很多个页面的title,如果下载整个html code, 肯定比较浪费时间。.net好像没有现成的类可以干这件事情(取得部分html) ,我应该如何去实现?”
一种比较"廉价"(即较小成本条件下)的解决思路:
第一步:取出含有页面title部分的最小集合。这是“廉价”的关键!
第二步:用正则表达式取出<title>和</title>之间的部分即可。
先看下效果:
邀月工作室

下面我们来分析:
页面title 一般都在靠近开始处,所以我们从开始读取Stream流,(如果靠近结尾,则如何?)读取到什么地方为止呢?有个比较明显的标志是
</title>
遇到它结束就可以了。
以什么方式读取,我这里选取的是:逐行读取,取到标志符即终止。
方法如下:

Code

取出后就是再用正则取出<title>和</title>之间的部分。
这部分浪费了些时间,因为邀月的正则功底不行啊!·
先后试过如下正则表达式:

1 //string strRegEx ="<[^>]*>";
2 //string strRegEx = "<title>.*([^</title>])";
3 //string strRegEx = "<title>(.*?)</title>";
4 //string strRegEx = "<title>.*?</title>";

均不能达到想要的“经济廉价”的效果,最终,找到这个:

Code


演示效果如上图:

后续问题:
1、将继续实现代理方式躲过IP;
2、将尝试另外一种通过Request.Filter方式直接替换来实现。
欢迎交流。

posted @   邀月  阅读(1143)  评论(11编辑  收藏  举报
编辑推荐:
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
阅读排行:
· winform 绘制太阳,地球,月球 运作规律
· AI与.NET技术实操系列(五):向量存储与相似性搜索在 .NET 中的实现
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)
点击右上角即可分享
微信分享提示