呵呵,抓取网页扒链接和图片的时候,总有些路径是写的相对路径,比如../之类的,我写了一个函数解决点问题,但不能全部解决,哪位大侠有兴趣有指点一下么

#region A标签相对路径改绝对路径
private static void AHrefFilter(ref string content, string Url, ref string MatchPattern)
{
//A标签相对路径改绝对路径
MatchPattern = @"\bhref=[^:^;^#^+^>]*?>";
MatchCollection mcAhref = Regex.Matches(content, MatchPattern, RegexOptions.IgnoreCase);
foreach (Match m in mcAhref)
{
string hrefStr = m.Value.Replace("href", "").Replace("HREF", "").Substring(1);
string hrefStrTrim = hrefStr;
if (!hrefStr.Contains("http") && hrefStr.StartsWith("\"/"))
{
string urlagain = Regex.Match(Url, "http://([^/]*?/)").Value.Trim();
hrefStr = "\"" + urlagain.Substring(0, urlagain.Length - 1) + hrefStr.Substring(1);
}
if (!hrefStr.Contains("http") && hrefStr.Contains("\"../../"))
{
hrefStr = hrefStr.Replace("http://www.cnblogs.com/", "");
hrefStr = "\"" + Regex.Match(Url, "http://([^/]*?/){2}").Value.Trim() + hrefStr.Substring(1);
}
if (!hrefStr.Contains("http") && hrefStr.Contains("\"../"))
{
hrefStr = hrefStr.Replace("../", "");
hrefStr = "\"" + Regex.Match(Url, "http://([^/]*?/){3}").Value.Trim() + hrefStr.Substring(1);
}
if (!hrefStr.Contains("http") && !hrefStr.StartsWith("\"/"))
{
hrefStr = "\"" + Regex.Match(Url, "http://([^/]*?/){4}").Value.Trim() + hrefStr.Substring(1);
}
string newHrefStr = "href=" + hrefStr + "";
content = content.Replace(m.Value, newHrefStr);
}
}
#endregion
private static void AHrefFilter(ref string content, string Url, ref string MatchPattern)
{
//A标签相对路径改绝对路径
MatchPattern = @"\bhref=[^:^;^#^+^>]*?>";
MatchCollection mcAhref = Regex.Matches(content, MatchPattern, RegexOptions.IgnoreCase);
foreach (Match m in mcAhref)
{
string hrefStr = m.Value.Replace("href", "").Replace("HREF", "").Substring(1);
string hrefStrTrim = hrefStr;
if (!hrefStr.Contains("http") && hrefStr.StartsWith("\"/"))
{
string urlagain = Regex.Match(Url, "http://([^/]*?/)").Value.Trim();
hrefStr = "\"" + urlagain.Substring(0, urlagain.Length - 1) + hrefStr.Substring(1);
}
if (!hrefStr.Contains("http") && hrefStr.Contains("\"../../"))
{
hrefStr = hrefStr.Replace("http://www.cnblogs.com/", "");
hrefStr = "\"" + Regex.Match(Url, "http://([^/]*?/){2}").Value.Trim() + hrefStr.Substring(1);
}
if (!hrefStr.Contains("http") && hrefStr.Contains("\"../"))
{
hrefStr = hrefStr.Replace("../", "");
hrefStr = "\"" + Regex.Match(Url, "http://([^/]*?/){3}").Value.Trim() + hrefStr.Substring(1);
}
if (!hrefStr.Contains("http") && !hrefStr.StartsWith("\"/"))
{
hrefStr = "\"" + Regex.Match(Url, "http://([^/]*?/){4}").Value.Trim() + hrefStr.Substring(1);
}
string newHrefStr = "href=" + hrefStr + "";
content = content.Replace(m.Value, newHrefStr);
}
}
#endregion
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· DeepSeek 解答了困扰我五年的技术问题
· 为什么说在企业级应用开发中,后端往往是效率杀手?
· 用 C# 插值字符串处理器写一个 sscanf
· Java 中堆内存和栈内存上的数据分布和特点
· 开发中对象命名的一点思考
· PPT革命!DeepSeek+Kimi=N小时工作5分钟完成?
· What?废柴, 还在本地部署DeepSeek吗?Are you kidding?
· DeepSeek企业级部署实战指南:从服务器选型到Dify私有化落地
· 程序员转型AI:行业分析
· 重磅发布!DeepSeek 微调秘籍揭秘,一键解锁升级版全家桶,AI 玩家必备神器!