爬虫之selenium
摘要:一、selenium模块 之前,我们爬虫是模拟浏览器,但始终不是用的浏览器,但今天我们要说的是另一种爬虫方式,这次不是模拟浏览器,而是用程序去控制浏览器进行一些列操作,也就是selenium。selenium是python的一个第三方库,对外提供的接口可以操控浏览器,比如说输入、点击,跳转,下拉等动
阅读全文
posted @
2023-08-10 17:14
宏宇
阅读(110)
推荐(0) 编辑
HCaptcha 的模拟点击破解教程
摘要:前面的文章“谷歌验证码ReCAPTCHA 的模拟点击破解方案来了!”我们介绍过 ReCaptcha 的模拟点击破解教程,但除了 ReCaptcha,还有另外和 ReCapacha 验证流程很相似的验证码,叫做 HCaptcha。 ReCaptcha 是谷歌家的,因为某些原因,咱们国内是无法使用 Re
阅读全文
posted @
2023-08-10 16:19
宏宇
阅读(369)
推荐(0) 编辑
如何优雅的破解HCaptcha验证码
摘要:HCaptcha介绍 HCaptcha是国外知名的验证码服务商,其主要功能就是为网站提供验证码服务,避免网站被恶意爬虫肆意爬取信息。相比于HCaptcha,大家可能更加熟悉Google reCaptcha(Google提供的验证码服务),但因为某些原因,国内是无法使用Google reCaptcha
阅读全文
posted @
2023-08-10 15:17
宏宇
阅读(1331)
推荐(0) 编辑
C# 下载PDF文件(http与ftp)
摘要:1.下载http模式的pdf文件(以ASP.NET为例,将PDF存在项目的目录下,可以通过http直接打开项目下的pdf文件) #region 调用本地文件使用返回pdfbyte数组 /// <summary> /// 调用本地文件使用返回pdfbyte数组 /// </summary> /// <
阅读全文
posted @
2022-09-07 15:56
宏宇
阅读(881)
推荐(1) 编辑
有道翻译爬虫
摘要:爬虫实现有道翻译(超详细) 采集网站链接:在线翻译_有道 1、打开网站和开发者工具: 使用浏览器访问有道翻译网页,按F12打开开发者工具,切换到network选项卡,如图1所示; 图1 network当前就只有一个数据包 2、输入内容记录数据包: 在有道翻译的输入框中输入要翻译的内容,让networ
阅读全文
posted @
2022-08-10 18:23
宏宇
阅读(264)
推荐(0) 编辑
HttpWebResponse 获取网页乱码
摘要:StreamReader获取字符串使用 Encoding.Default. 检查HttpWebResponse.ContentEncoding是否包含恶心的 "GZIP"字符,如果是那么要多一步操作 string html = ""; string url = "http://www.stats.g
阅读全文
posted @
2021-12-20 20:20
宏宇
阅读(167)
推荐(0) 编辑
Web of Science爬虫(WOS、SCI):风车WOS下载器(转)
摘要:转自:https://www.cnblogs.com/glacier000/ Web of Science 是获取全球学术信息的重要数据库平台,包含了web of science核心合集(SCI科学引文索引、SSCI社会科学引文索引)、Derwent Innovations index、Medlin
阅读全文
posted @
2021-10-11 10:22
宏宇
阅读(1510)
推荐(0) 编辑
httpwebrequest抓取网页非字符串的文件数据时要使用流直接写文件(如excel,pdf等等)
摘要:比如返回数据为Excel,图片等等非字符串数据。不要使用reader.ReadToEnd();字符串格式的才使用这个。 直接存Stream为cvs或者xls。 public static Stream HttpPost2(string url) { HttpWebResponse response
阅读全文
posted @
2021-09-10 11:21
宏宇
阅读(103)
推荐(0) 编辑
WinForm CefSharp 笔记一(入门篇)
摘要:简介 CefSharp简单来说就是一款.Net编写的浏览器包,方便你在Winform和WPF中内嵌的Chrome浏览器组件。 资源 GitHub地址:传送门wiki帮助文档地址:传送门CefSharp最小的示例工程:传送门gitter交流讨论区:传送门 快速入门 本文使用版本cefsharp/71
阅读全文
posted @
2021-07-23 02:16
宏宇
阅读(864)
推荐(0) 编辑
c#关于网页内容抓取,简单爬虫的实现。包括动态,静态的
摘要:整理一下最近做的几个项目。总结几个用到的知识点和关键部分代码,以供大家学习交流。1、爬虫抓取网页内容信息。可以用System.Net.WebRequest、webclient等类来处理。2、对于某些动态网页,生成页面信心由javascript动态生成链接信息的。也可以进行分析传值的方式,在post的
阅读全文
posted @
2021-07-23 02:14
宏宇
阅读(1346)
推荐(0) 编辑
浅谈网络爬虫爬js动态加载网页
摘要:由于别的项目组在做舆情的预言项目,我手头正好没有什么项目,突然心血来潮想研究一下爬虫、分析的简单原型。网上查查这方面的资料还真是多,眼睛都看花了。搜了搜对于我这种新手来说,想做一个简单的爬虫程序,所以HttpClient + jsoup是一个不错的选择。前者用来管理请求,后者用来解析页面,主要是后者
阅读全文
posted @
2021-07-23 02:05
宏宇
阅读(1291)
推荐(0) 编辑
Python爬虫爬取动态页面思路+实例(二)
摘要:简介 上篇Python爬虫爬取动态页面思路+实例(一)提到,爬取动态页面有两种方法 分析页面请求 selenium模拟浏览器行为(这篇介绍这个) 理论上来讲,这种方法可以应对各种动态加载,因为模拟人的行为嘛,如果人自己用浏览器来看网页都加载不出数据来,这网站吃枣药丸。但是它的显著缺点就是——慢。所以
阅读全文
posted @
2021-07-23 01:58
宏宇
阅读(793)
推荐(0) 编辑
Python爬虫爬取动态页面思路+实例(一)
摘要:简介 有时候,我们天真无邪的使用urllib库或Scrapy下载HTML网页时会发现,我们要提取的网页元素并不在我们下载到的HTML之中,尽管它们在浏览器里看起来唾手可得。 这说明我们想要的元素是在我们的某些操作下通过js事件动态生成的。举个例子,我们在刷QQ空间或者微博评论的时候,一直往下刷,网页
阅读全文
posted @
2021-07-23 01:55
宏宇
阅读(2894)
推荐(1) 编辑
让人又爱又恨的HtmlUnit,你一定要了解一下
摘要:1.HtmlUnit简要介绍 HtmlUnit是一款java的无界面浏览器程序库。它模拟HTML文档,并提供相应的API,允许您调用页面,填写表单,点击链接等操作,就像您在“正常”浏览器中做的一样。它有相当不错的JavaScript支持(还在不断改进),甚至能够处理相当复杂的AJAX库,模拟Chro
阅读全文
posted @
2021-07-23 01:50
宏宇
阅读(473)
推荐(0) 编辑
JAVA实现网页抓取(htmlunit)
摘要:准确条件加入依赖jar包<dependency> <groupId>net.sourceforge.htmlunit</groupId> <artifactId>htmlunit</artifactId> <version>2.15</version></dependency>代码示例private
阅读全文
posted @
2021-07-23 01:48
宏宇
阅读(298)
推荐(0) 编辑
使用HtmlUnit获取html页面
摘要:https://blog.csdn.net/johnson_moon/article/details/78457543 HtmlUnit简介 官网介绍 HtmlUnit is a "GUI-Less browser for Java programs". It models HTML documen
阅读全文
posted @
2021-07-23 01:46
宏宇
阅读(243)
推荐(0) 编辑
c# 抓取 js动态生成的HTML的工具:NHtmlUnit
摘要:目前可以在NuGet直接引用 (此博客文章纯属个人记录,转载请注明出处!) 官方地址:NHtmlUnit 编译获取dll方法: 1.下载nuget.exe (nuget所在网站:http://www.nuget.org/) 2.打开DOS命令对话框, 进入nuget.exe文件所在目录(我的exe文
阅读全文
posted @
2021-07-23 01:45
宏宇
阅读(194)
推荐(0) 编辑
【外贸推广】海外/国外动态IP代理服务商推荐(http/https/socks5)
摘要:大家都知道,目前国内用于爬虫的http-ip提供商很多,但是涉及到国外的资源就寥寥无几,几乎没有优质资源。哪怕是付费的,那么今天就分享一下几家国外适合爬虫的动态ip资源。 一、FstCloud:http://www.fstcloud.net FstCloud是一家注册在香港的企业,有http/htt
阅读全文
posted @
2021-06-16 15:46
宏宇
阅读(16)
推荐(0) 编辑
爬虫代理哪家强?十大付费代理详细对比评测出炉
摘要:前言 随着大数据时代的到来,爬虫已经成了获取数据的必不可少的方式,做过爬虫的想必都深有体会,爬取的时候莫名其妙 IP 就被网站封掉了,毕竟各大网站也不想自己的数据被轻易地爬走。 对于爬虫来说,为了解决封禁 IP 的问题,一个有效的方式就是使用代理,使用代理之后可以让爬虫伪装自己的真实 IP,如果使用
阅读全文
posted @
2021-06-16 15:36
宏宇
阅读(1001)
推荐(0) 编辑
代理选择
摘要:前言 随着大数据时代的到来,爬虫已经成了获取数据的必不可少的方式,做过爬虫的想必都深有体会,爬取的时候莫名其妙 IP 就被网站封掉了,毕竟各大网站也不想自己的数据被轻易地爬走。 对于爬虫来说,为了解决封禁 IP 的问题,一个有效的方式就是使用代理,使用代理之后可以让爬虫伪装自己的真实 IP,如果使用
阅读全文
posted @
2021-06-16 15:31
宏宇
阅读(149)
推荐(0) 编辑