C#使用Selenium
介绍:
Selenium 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera等。
利用它可以驱动浏览器执行特定的动作,如点击、下拉等操作,同时还可以获取浏览器当前呈现的页面的源代码 ,做到可见即可爬。
所以Selenium现在被广泛用于Python爬虫。查了下资料,发现这个工具确实强大,最重要的是,C#也是可以调用的。
官方支持Java,C#,Python,Ruby,PHP,Perl,Javascript等语言
Selenium使用Java开发,项目地址 https://github.com/SeleniumHQ/selenium
使用Selenium:
1、我们新建一个C#控制台程序
2、使用Nuget搜索以下依赖库
需要引用的核心库是Selenium.RC,Selenium.Support,Selenium.WebDriver
然后再需要引用 浏览器驱动库,这里我以IE浏览器为例,Chrome使用方式跟IE是一样的,程序包名称为Selenium.WebDriver.ChromeDriver。
3、在Main函数中输入以下代码
1 static void Main(string[] args) 2 { 3 using (IWebDriver driver = new OpenQA.Selenium.IE.InternetExplorerDriver()) 4 { 5 driver.Navigate().GoToUrl("http://www.baidu.com"); //driver.Url = "http://www.baidu.com"是一样的 6 7 var source = driver.PageSource; 8 9 Console.WriteLine(source); 10 } 11 }
运行,会弹出IE浏览器,网页加载完成后,浏览器会自动关闭。控制台输入结果如下
这样我们就可以轻松的获取动态渲染页面的源码。
基本用法:
这里我以https://technet-info.com/Main.aspx这个页面来演示。
页面源码如下
1 <!DOCTYPE html> 2 3 <html xmlns="http://www.w3.org/1999/xhtml"> 4 <head><meta http-equiv="Content-Type" content="text/html; charset=utf-8" /><meta name="description" content="Wandering the number of windows, stayed in the number of hotels, will feel that separation is not wronged, the feelings are used to browse or used to collect, so that the day had a memorable day" /><title> 5 Welcome To Technet-Info : Personal Gallery 6 </title><link rel="shortcut icon" type="image/x-icon" href="technet.ico" media="screen" /><link rel="stylesheet" href="Css/MainCss.css" /><link rel="stylesheet" href="Css/screen.css" /> 7 <style> 8 #footer{ 9 display: flex; 10 justify-content: center; 11 align-items: center; 12 position: fixed; 13 bottom: 0; 14 left: 0; 15 width: 100%; 16 } 17 </style> 18 <script type="text/javascript" src="js/jquery.js"></script> 19 <script type="text/javascript" src="js/easySlider1.7.js"></script> 20 <script type="text/javascript"> 21 $(document).ready(function () { 22 $("#slider").easySlider({ 23 auto: true, 24 pause:3000, 25 continuous: true, 26 numeric: true 27 }); 28 }); 29 </script> 30 </head> 31 <body> 32 <form method="post" action="./Main.aspx" id="form1"> 33 <div class="aspNetHidden"> 34 <input type="hidden" name="__VIEWSTATE" id="__VIEWSTATE" value="/wEPDwUKLTQyNjI2MTkwNmRkt331eyucv2SBluj0E2d+0haGV4exFHWtGQkZhNBnpHE=" /> 35 </div> 36 37 <div class="aspNetHidden"> 38 39 <input type="hidden" name="__VIEWSTATEGENERATOR" id="__VIEWSTATEGENERATOR" value="202EA31B" /> 40 </div> 41 <div id="main"> 42 <div id="header"> 43 <div class="musicarea"> 44 45 <iframe frameborder="no" border="0" marginwidth="0" marginheight="0" width=150 height=52 src="http://music.163.com/outchain/player?type=0&id=516657278&auto=1&height=32"></iframe> 46 </div> 47 <div class="content"> 48 49 <div class="logo"> 50 51 <div class="logo_img"> 52 <div class="logo_img"></div> 53 </div> 54 55 <div class="logo_txt"> 56 <div style="height: 50px;"> 57 <p></p> 58 </div> 59 <div style="height: 50px;"> 60 <p>我的freetime</p> 61 </div> 62 </div> 63 </div> 64 65 66 67 <div class="menu"> 68 69 </div> 70 </div> 71 72 <div id="content"> 73 74 75 </div> 76 77 <div id="cards"> 78 79 </div> 80 <div id="pin"> 81 82 </div> 83 84 </div> 85 86 <div id="footer"> 87 <div id="copyright"> 88 <p style="margin: 3px"> 89 <a href="http://www.miitbeian.gov.cn/">湘ICP备16012349号</a> 90 <span>|</span> 91 <span>Copyright © 2016, www.technet-info.com, All rights reserved.</span> 92 </p> 93 <p><a href="mailto:zhaotianff@163.com">Email:zhaotianff@163.com</a></p> 94 </div> 95 </div> 96 </div> 97 </form> 98 </body> 99 </html>
通过id获取元素
1 //by id 2 var byID = driver.FindElement(By.Id("cards"));
通过类名获取元素
1 //by class name 2 var byClassName = driver.FindElements(By.ClassName("menu"));
通过标签名获取元素
1 //by tag name 2 var byTagName = driver.FindElement(By.TagName("iframe"));
通过名字获取元素
1 var byName = driver.FindElement(By.Name("__VIEWSTATE"));
通过链接文本获取元素
1 //by linked text 2 //<a href="http://www.google.com">linkedtext</a>> 3 var byLinkText = driver.FindElement(By.LinkText("linkedtext"));
通过部分链接文本获取元素
1 //by partial link text 2 //<a href="http://www.google.com">linkedtext</a>> 3 var byPartialLinkText = driver.FindElement(By.PartialLinkText("text"));
通过CSS选择器获取元素
1 //by css 2 var byCss = driver.FindElement(By.CssSelector("#header .content .logo"));
输入文本
1 driver.FindElement(By.CssSelector("#sb_form_q")).Clear(); //清空文本 2 driver.FindElement(By.CssSelector("#sb_form_q")).SendKeys("文本");
提交
1 driver.FindElement(By.CssSelector("#sb_form_q")).Submit();
通过XPath来获取元素(XPath使用可以参考上一篇博客)
1 //by xpath 2 var byXPath = driver.FindElements(By.XPath("//div"));
执行JS
1 //execute javascript 2 var jsReturnValue = (IWebElement)((IJavaScriptExecutor)driver).ExecuteScript("jsfunname");
获取元素的值和属性
1 //get element value and attribute value 2 var byIDText = byID.Text; 3 var byIDAttributeText = byID.GetAttribute("id");
模拟鼠标点击元素
1 //click 2 driver.FindElement(By.Id("copyright")).Click();
页面导航
1 //Navigation 2 driver.Navigate().Forward(); 3 driver.Navigate().Back();
拖拽操作(可以实现滑动验证码的验证)
1 //Drag And Drop 2 var element = driver.FindElement(By.Name("source")); 3 IWebElement target = driver.FindElement(By.Name("target")); 4 (new Actions(driver)).DragAndDrop(element, target).Perform();
==========================================================================
2024.09.20补充
获取元素是否可见(visibility)
1 driver.FindElement(By.Name("elename")).Displayed;
获取元素是否启用(disabled/enabled)
1 driver.FindElement(By.Name("button")).Enabled;
获取元素是否被选中
1 driver.FindElement(By.Name("checkbox")).Selected;
获取元素位置和大小
1 driver.FindElement(By.Name("elename")).Location; 2 driver.FindElement(By.Name("elename")).Size;
获取CSS属性值
1 driver.FindElement(By.Name("input")).GetCssValue("font-size")
更复杂的模拟操作
假设界面上有个文本框和按钮,我们模拟鼠标点击文本框,然后输入,再点击按钮
1 var input = driver.FindElement(By.Id("input")); 2 var button = driver.FindElement(By.Id("button")); 3 4 //输入文本操作 5 new Actions(driver).MoveToElement(input) 6 .Pause(TimeSpan.FromSeconds(1)) 7 .Click() 8 .Pause(TimeSpan.FromSeconds(1)) 9 .SendKeys("HelloWorld") 10 .Perform(); 11 12 //点击按钮操作 13 new Actions(driver).MoveToElement(button) 14 .Pause(TimeSpan.FromSeconds(1)) 15 .Click() 16 .Perform();
模拟输入大写
1 //如果想输入大写,可以加入下面的逻辑 2 new Actions(driver) 3 .KeyDown(Keys.Shift) 4 .SendKeys("a") 5 .KeyUp(Keys.Shift) 6 .Perform();
模拟直接输入内容到文本框
1 IWebElement input= driver.FindElement(By.Id("input")); 2 new Actions(driver) 3 .SendKeys(input, "HelloWorld") 4 .Perform();
模拟粘贴
1 new Actions(driver) 2 .KeyDown(Keys.Control) 3 .SendKeys("xvv") 4 .KeyUp(Keys.Control) 5 .Perform();
模拟鼠标移动到元素时指定偏移
1 IWebElement ele = driver.FindElement(By.Id("element")); 2 new Actions(driver) 3 .MoveToElement(ele , 5, 0) 4 .Perform();
模拟滚动到元素
1 IWebElement ele = driver.FindElement(By.TagName("element")); 2 new Actions(driver) 3 .ScrollToElement(ele ) 4 .Perform();
模拟滚动时指定偏移量
1 new Actions(driver) 2 .ScrollByAmount(0,100) 3 .Perform();
等待操作
1、Sleep等待
1 driver.Url = "https://myfreetime.cn"; 2 3 //等待指定的时长 4 Thread.Sleep(1000); 5 6 //再进行其它操作
2、隐式等待
隐式等待的意思是:当元素没有被呈现出来之前,WebDriver在查找元素前,会等待指定的时长,这种等待是固定的
这种等待和Sleep不一样,Sleep是不判断直接等待,而隐式等待是元素未被呈现出来,才会等待,如果执行查找时,元素能被查找到,就不会等待。
1 driver.Manage().Timeouts().ImplicitWait = TimeSpan.FromSeconds(2); //隐式等待2秒 2 3 driver.Url = "https://myfreetime.cn"; 4 driver.FindElement(By.Id("cards"));
显式等待
显式等待是添加到代码中的循环,它会轮询判断条件是否为真。
例如查找一个元素,在超时之前,会轮询一直查找,如果查找到了,结束轮询,如果没查找到,会一直轮询,直到设置的超时时间 。
1 driver.Url = "https://myfreetime.cn"; 2 WebDriverWait wait = new WebDriverWait(driver, TimeSpan.FromSeconds(2)) 3 { 4 PollingInterval = TimeSpan.FromMilliseconds(500), //设置轮询的间隔 5 };//设置超时时间为10秒 6 wait.IgnoreExceptionTypes(typeof(NoSuchElementException)); //忽略NoSuchElementException异常 7 wait.Until(d => d.FindElement(By.Id("cards")));
这里要注意一个细节,在Visual Studio中调试时,即使忽略了NoSuchElementException异常,还是会报错,可以看到下面这个链接中被采纳的回答:
https://ask.csdn.net/questions/7916268/54147477?spm=1001.2014.3001.5504
最后再说一下,文章中前面那个链接已经无法访问了,因为我的网站更新了。后面有空了再来更新示例代码和文章中的内容,如果遇到疑问可以在评论区留言,工作日基本每天会登录博客园查看。