爬虫技术 -- 进阶学习(十一)【补充】获取html中meta标签中的content的内容
上一篇网易新闻页面信息抓取 -- htmlagilitypack搭配scrapysharp中提及了很多如何快速抓取html中的文本的语句,
但是meta标签中的content内容的抓取,没有提及到!
上网搜索了下,发现很少提及,所以写篇随笔,备忘一下!
还是在HtmlAgillityPack搭配ScrapySharp的环境下,具体如何配置点击上一篇链接。
例子:<meta name="keywords" content="召开新闻,自流沟,含油污水" />
提取效果:把文本【召开新闻,自流沟,含油污水】提取出来.
核心代码:
var html1 = browser1.DownloadString(uri); var doc = new HtmlDocument(); doc.LoadHtml(html1); var keywords = doc.DocumentNode.SelectSingleNode("//meta[@name='keywords']").GetAttributeValue("content");
然后执行Console.WriteLine(keywords);
输出:召开新闻,自流沟,含油污水
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步