陋室铭
永远也不要停下学习的脚步(大道至简至易)

posts - 2167,comments - 570,views - 413万

随笔分类 -  网络爬虫

1 2 下一页
爬虫之selenium
摘要:一、selenium模块 之前,我们爬虫是模拟浏览器,但始终不是用的浏览器,但今天我们要说的是另一种爬虫方式,这次不是模拟浏览器,而是用程序去控制浏览器进行一些列操作,也就是selenium。selenium是python的一个第三方库,对外提供的接口可以操控浏览器,比如说输入、点击,跳转,下拉等动 阅读全文
posted @ 2023-08-10 17:14 宏宇 阅读(110) 评论(0) 推荐(0) 编辑
HCaptcha 的模拟点击破解教程
摘要:前面的文章“谷歌验证码ReCAPTCHA 的模拟点击破解方案来了!”我们介绍过 ReCaptcha 的模拟点击破解教程,但除了 ReCaptcha,还有另外和 ReCapacha 验证流程很相似的验证码,叫做 HCaptcha。 ReCaptcha 是谷歌家的,因为某些原因,咱们国内是无法使用 Re 阅读全文
posted @ 2023-08-10 16:19 宏宇 阅读(369) 评论(0) 推荐(0) 编辑
如何优雅的破解HCaptcha验证码
摘要:HCaptcha介绍 HCaptcha是国外知名的验证码服务商,其主要功能就是为网站提供验证码服务,避免网站被恶意爬虫肆意爬取信息。相比于HCaptcha,大家可能更加熟悉Google reCaptcha(Google提供的验证码服务),但因为某些原因,国内是无法使用Google reCaptcha 阅读全文
posted @ 2023-08-10 15:17 宏宇 阅读(1331) 评论(0) 推荐(0) 编辑
C# 下载PDF文件(http与ftp)
摘要:1.下载http模式的pdf文件(以ASP.NET为例,将PDF存在项目的目录下,可以通过http直接打开项目下的pdf文件) #region 调用本地文件使用返回pdfbyte数组 /// <summary> /// 调用本地文件使用返回pdfbyte数组 /// </summary> /// < 阅读全文
posted @ 2022-09-07 15:56 宏宇 阅读(881) 评论(0) 推荐(1) 编辑
有道翻译爬虫
摘要:爬虫实现有道翻译(超详细) 采集网站链接:在线翻译_有道 1、打开网站和开发者工具: 使用浏览器访问有道翻译网页,按F12打开开发者工具,切换到network选项卡,如图1所示; 图1 network当前就只有一个数据包 2、输入内容记录数据包: 在有道翻译的输入框中输入要翻译的内容,让networ 阅读全文
posted @ 2022-08-10 18:23 宏宇 阅读(264) 评论(0) 推荐(0) 编辑
HttpWebResponse 获取网页乱码
摘要:StreamReader获取字符串使用 Encoding.Default. 检查HttpWebResponse.ContentEncoding是否包含恶心的 "GZIP"字符,如果是那么要多一步操作 string html = ""; string url = "http://www.stats.g 阅读全文
posted @ 2021-12-20 20:20 宏宇 阅读(167) 评论(0) 推荐(0) 编辑
Web of Science爬虫(WOS、SCI):风车WOS下载器(转)
摘要:转自:https://www.cnblogs.com/glacier000/ Web of Science 是获取全球学术信息的重要数据库平台,包含了web of science核心合集(SCI科学引文索引、SSCI社会科学引文索引)、Derwent Innovations index、Medlin 阅读全文
posted @ 2021-10-11 10:22 宏宇 阅读(1510) 评论(0) 推荐(0) 编辑
httpwebrequest抓取网页非字符串的文件数据时要使用流直接写文件(如excel,pdf等等)
摘要:比如返回数据为Excel,图片等等非字符串数据。不要使用reader.ReadToEnd();字符串格式的才使用这个。 直接存Stream为cvs或者xls。 public static Stream HttpPost2(string url) { HttpWebResponse response 阅读全文
posted @ 2021-09-10 11:21 宏宇 阅读(103) 评论(0) 推荐(0) 编辑
WinForm CefSharp 笔记一(入门篇)
摘要:简介 CefSharp简单来说就是一款.Net编写的浏览器包,方便你在Winform和WPF中内嵌的Chrome浏览器组件。 资源 GitHub地址:传送门wiki帮助文档地址:传送门CefSharp最小的示例工程:传送门gitter交流讨论区:传送门 快速入门 本文使用版本cefsharp/71 阅读全文
posted @ 2021-07-23 02:16 宏宇 阅读(864) 评论(0) 推荐(0) 编辑
c#关于网页内容抓取,简单爬虫的实现。包括动态,静态的
摘要:整理一下最近做的几个项目。总结几个用到的知识点和关键部分代码,以供大家学习交流。1、爬虫抓取网页内容信息。可以用System.Net.WebRequest、webclient等类来处理。2、对于某些动态网页,生成页面信心由javascript动态生成链接信息的。也可以进行分析传值的方式,在post的 阅读全文
posted @ 2021-07-23 02:14 宏宇 阅读(1346) 评论(0) 推荐(0) 编辑
浅谈网络爬虫爬js动态加载网页
摘要:由于别的项目组在做舆情的预言项目,我手头正好没有什么项目,突然心血来潮想研究一下爬虫、分析的简单原型。网上查查这方面的资料还真是多,眼睛都看花了。搜了搜对于我这种新手来说,想做一个简单的爬虫程序,所以HttpClient + jsoup是一个不错的选择。前者用来管理请求,后者用来解析页面,主要是后者 阅读全文
posted @ 2021-07-23 02:05 宏宇 阅读(1291) 评论(0) 推荐(0) 编辑
Python爬虫爬取动态页面思路+实例(二)
摘要:简介 上篇Python爬虫爬取动态页面思路+实例(一)提到,爬取动态页面有两种方法 分析页面请求 selenium模拟浏览器行为(这篇介绍这个) 理论上来讲,这种方法可以应对各种动态加载,因为模拟人的行为嘛,如果人自己用浏览器来看网页都加载不出数据来,这网站吃枣药丸。但是它的显著缺点就是——慢。所以 阅读全文
posted @ 2021-07-23 01:58 宏宇 阅读(793) 评论(0) 推荐(0) 编辑
Python爬虫爬取动态页面思路+实例(一)
摘要:简介 有时候,我们天真无邪的使用urllib库或Scrapy下载HTML网页时会发现,我们要提取的网页元素并不在我们下载到的HTML之中,尽管它们在浏览器里看起来唾手可得。 这说明我们想要的元素是在我们的某些操作下通过js事件动态生成的。举个例子,我们在刷QQ空间或者微博评论的时候,一直往下刷,网页 阅读全文
posted @ 2021-07-23 01:55 宏宇 阅读(2894) 评论(0) 推荐(1) 编辑
让人又爱又恨的HtmlUnit,你一定要了解一下
摘要:1.HtmlUnit简要介绍 HtmlUnit是一款java的无界面浏览器程序库。它模拟HTML文档,并提供相应的API,允许您调用页面,填写表单,点击链接等操作,就像您在“正常”浏览器中做的一样。它有相当不错的JavaScript支持(还在不断改进),甚至能够处理相当复杂的AJAX库,模拟Chro 阅读全文
posted @ 2021-07-23 01:50 宏宇 阅读(473) 评论(0) 推荐(0) 编辑
JAVA实现网页抓取(htmlunit)
摘要:准确条件加入依赖jar包<dependency> <groupId>net.sourceforge.htmlunit</groupId> <artifactId>htmlunit</artifactId> <version>2.15</version></dependency>代码示例private 阅读全文
posted @ 2021-07-23 01:48 宏宇 阅读(298) 评论(0) 推荐(0) 编辑
使用HtmlUnit获取html页面
摘要:https://blog.csdn.net/johnson_moon/article/details/78457543 HtmlUnit简介 官网介绍 HtmlUnit is a "GUI-Less browser for Java programs". It models HTML documen 阅读全文
posted @ 2021-07-23 01:46 宏宇 阅读(243) 评论(0) 推荐(0) 编辑
c# 抓取 js动态生成的HTML的工具:NHtmlUnit‎
摘要:目前可以在NuGet直接引用 (此博客文章纯属个人记录,转载请注明出处!) 官方地址:NHtmlUnit 编译获取dll方法: 1.下载nuget.exe (nuget所在网站:http://www.nuget.org/) 2.打开DOS命令对话框, 进入nuget.exe文件所在目录(我的exe文 阅读全文
posted @ 2021-07-23 01:45 宏宇 阅读(194) 评论(0) 推荐(0) 编辑
【外贸推广】海外/国外动态IP代理服务商推荐(http/https/socks5)
摘要:大家都知道,目前国内用于爬虫的http-ip提供商很多,但是涉及到国外的资源就寥寥无几,几乎没有优质资源。哪怕是付费的,那么今天就分享一下几家国外适合爬虫的动态ip资源。 一、FstCloud:http://www.fstcloud.net FstCloud是一家注册在香港的企业,有http/htt 阅读全文
posted @ 2021-06-16 15:46 宏宇 阅读(16) 评论(0) 推荐(0) 编辑
爬虫代理哪家强?十大付费代理详细对比评测出炉
摘要:前言 随着大数据时代的到来,爬虫已经成了获取数据的必不可少的方式,做过爬虫的想必都深有体会,爬取的时候莫名其妙 IP 就被网站封掉了,毕竟各大网站也不想自己的数据被轻易地爬走。 对于爬虫来说,为了解决封禁 IP 的问题,一个有效的方式就是使用代理,使用代理之后可以让爬虫伪装自己的真实 IP,如果使用 阅读全文
posted @ 2021-06-16 15:36 宏宇 阅读(1001) 评论(0) 推荐(0) 编辑
代理选择
摘要:前言 随着大数据时代的到来,爬虫已经成了获取数据的必不可少的方式,做过爬虫的想必都深有体会,爬取的时候莫名其妙 IP 就被网站封掉了,毕竟各大网站也不想自己的数据被轻易地爬走。 对于爬虫来说,为了解决封禁 IP 的问题,一个有效的方式就是使用代理,使用代理之后可以让爬虫伪装自己的真实 IP,如果使用 阅读全文
posted @ 2021-06-16 15:31 宏宇 阅读(149) 评论(0) 推荐(0) 编辑

1 2 下一页
< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

点击右上角即可分享
微信分享提示