网络爬虫 - 随笔分类 - 宏宇

爬虫之selenium

摘要：一、selenium模块之前，我们爬虫是模拟浏览器，但始终不是用的浏览器，但今天我们要说的是另一种爬虫方式，这次不是模拟浏览器，而是用程序去控制浏览器进行一些列操作，也就是selenium。selenium是python的一个第三方库，对外提供的接口可以操控浏览器，比如说输入、点击，跳转，下拉等动阅读全文

posted @ 2023-08-10 17:14 宏宇阅读(110) 评论(0) 推荐(0) 编辑

HCaptcha 的模拟点击破解教程

摘要：前面的文章“谷歌验证码ReCAPTCHA 的模拟点击破解方案来了！”我们介绍过 ReCaptcha 的模拟点击破解教程，但除了 ReCaptcha，还有另外和 ReCapacha 验证流程很相似的验证码，叫做 HCaptcha。 ReCaptcha 是谷歌家的，因为某些原因，咱们国内是无法使用 Re 阅读全文

posted @ 2023-08-10 16:19 宏宇阅读(369) 评论(0) 推荐(0) 编辑

如何优雅的破解HCaptcha验证码

摘要：HCaptcha介绍 HCaptcha是国外知名的验证码服务商，其主要功能就是为网站提供验证码服务，避免网站被恶意爬虫肆意爬取信息。相比于HCaptcha，大家可能更加熟悉Google reCaptcha（Google提供的验证码服务），但因为某些原因，国内是无法使用Google reCaptcha 阅读全文

posted @ 2023-08-10 15:17 宏宇阅读(1331) 评论(0) 推荐(0) 编辑

C# 下载PDF文件（http与ftp）

摘要：1.下载http模式的pdf文件（以ASP.NET为例，将PDF存在项目的目录下，可以通过http直接打开项目下的pdf文件） #region 调用本地文件使用返回pdfbyte数组 /// <summary> /// 调用本地文件使用返回pdfbyte数组 /// </summary> /// < 阅读全文

posted @ 2022-09-07 15:56 宏宇阅读(881) 评论(0) 推荐(1) 编辑

有道翻译爬虫

摘要：爬虫实现有道翻译（超详细）采集网站链接：在线翻译_有道 1、打开网站和开发者工具：使用浏览器访问有道翻译网页，按F12打开开发者工具，切换到network选项卡，如图1所示；图1 network当前就只有一个数据包 2、输入内容记录数据包：在有道翻译的输入框中输入要翻译的内容，让networ 阅读全文

posted @ 2022-08-10 18:23 宏宇阅读(264) 评论(0) 推荐(0) 编辑

HttpWebResponse 获取网页乱码

摘要：StreamReader获取字符串使用 Encoding.Default. 检查HttpWebResponse.ContentEncoding是否包含恶心的 "GZIP"字符,如果是那么要多一步操作 string html = ""; string url = "http://www.stats.g 阅读全文

posted @ 2021-12-20 20:20 宏宇阅读(167) 评论(0) 推荐(0) 编辑

Web of Science爬虫(WOS、SCI):风车WOS下载器(转)

摘要：转自：https://www.cnblogs.com/glacier000/ Web of Science 是获取全球学术信息的重要数据库平台，包含了web of science核心合集（SCI科学引文索引、SSCI社会科学引文索引）、Derwent Innovations index、Medlin 阅读全文

posted @ 2021-10-11 10:22 宏宇阅读(1510) 评论(0) 推荐(0) 编辑

httpwebrequest抓取网页非字符串的文件数据时要使用流直接写文件(如excel,pdf等等)

摘要：比如返回数据为Excel，图片等等非字符串数据。不要使用reader.ReadToEnd();字符串格式的才使用这个。直接存Stream为cvs或者xls。 public static Stream HttpPost2(string url) { HttpWebResponse response 阅读全文

posted @ 2021-09-10 11:21 宏宇阅读(103) 评论(0) 推荐(0) 编辑

WinForm CefSharp 笔记一（入门篇）

摘要：简介 CefSharp简单来说就是一款.Net编写的浏览器包，方便你在Winform和WPF中内嵌的Chrome浏览器组件。资源 GitHub地址：传送门wiki帮助文档地址：传送门CefSharp最小的示例工程：传送门gitter交流讨论区：传送门快速入门本文使用版本cefsharp/71 阅读全文

posted @ 2021-07-23 02:16 宏宇阅读(864) 评论(0) 推荐(0) 编辑

c#关于网页内容抓取，简单爬虫的实现。包括动态，静态的

摘要：整理一下最近做的几个项目。总结几个用到的知识点和关键部分代码，以供大家学习交流。1、爬虫抓取网页内容信息。可以用System.Net.WebRequest、webclient等类来处理。2、对于某些动态网页，生成页面信心由javascript动态生成链接信息的。也可以进行分析传值的方式，在post的阅读全文

posted @ 2021-07-23 02:14 宏宇阅读(1346) 评论(0) 推荐(0) 编辑

浅谈网络爬虫爬js动态加载网页

摘要：由于别的项目组在做舆情的预言项目，我手头正好没有什么项目，突然心血来潮想研究一下爬虫、分析的简单原型。网上查查这方面的资料还真是多，眼睛都看花了。搜了搜对于我这种新手来说，想做一个简单的爬虫程序，所以HttpClient + jsoup是一个不错的选择。前者用来管理请求，后者用来解析页面，主要是后者阅读全文

posted @ 2021-07-23 02:05 宏宇阅读(1291) 评论(0) 推荐(0) 编辑

Python爬虫爬取动态页面思路+实例（二）

摘要：简介上篇Python爬虫爬取动态页面思路+实例（一）提到，爬取动态页面有两种方法分析页面请求 selenium模拟浏览器行为（这篇介绍这个）理论上来讲，这种方法可以应对各种动态加载，因为模拟人的行为嘛，如果人自己用浏览器来看网页都加载不出数据来，这网站吃枣药丸。但是它的显著缺点就是——慢。所以阅读全文

posted @ 2021-07-23 01:58 宏宇阅读(793) 评论(0) 推荐(0) 编辑

Python爬虫爬取动态页面思路+实例（一）

摘要：简介有时候，我们天真无邪的使用urllib库或Scrapy下载HTML网页时会发现，我们要提取的网页元素并不在我们下载到的HTML之中，尽管它们在浏览器里看起来唾手可得。这说明我们想要的元素是在我们的某些操作下通过js事件动态生成的。举个例子，我们在刷QQ空间或者微博评论的时候，一直往下刷，网页阅读全文

posted @ 2021-07-23 01:55 宏宇阅读(2894) 评论(0) 推荐(1) 编辑

让人又爱又恨的HtmlUnit,你一定要了解一下

摘要：1.HtmlUnit简要介绍 HtmlUnit是一款java的无界面浏览器程序库。它模拟HTML文档，并提供相应的API，允许您调用页面，填写表单，点击链接等操作，就像您在“正常”浏览器中做的一样。它有相当不错的JavaScript支持（还在不断改进），甚至能够处理相当复杂的AJAX库，模拟Chro 阅读全文

posted @ 2021-07-23 01:50 宏宇阅读(473) 评论(0) 推荐(0) 编辑

JAVA实现网页抓取(htmlunit)

摘要：准确条件加入依赖jar包<dependency> <groupId>net.sourceforge.htmlunit</groupId> <artifactId>htmlunit</artifactId> <version>2.15</version></dependency>代码示例private 阅读全文

posted @ 2021-07-23 01:48 宏宇阅读(298) 评论(0) 推荐(0) 编辑

使用HtmlUnit获取html页面

摘要：https://blog.csdn.net/johnson_moon/article/details/78457543 HtmlUnit简介官网介绍 HtmlUnit is a "GUI-Less browser for Java programs". It models HTML documen 阅读全文

posted @ 2021-07-23 01:46 宏宇阅读(243) 评论(0) 推荐(0) 编辑

c# 抓取 js动态生成的HTML的工具：NHtmlUnit‎

摘要：目前可以在NuGet直接引用（此博客文章纯属个人记录，转载请注明出处！）官方地址：NHtmlUnit 编译获取dll方法： 1.下载nuget.exe （nuget所在网站：http://www.nuget.org/） 2.打开DOS命令对话框，进入nuget.exe文件所在目录（我的exe文阅读全文

posted @ 2021-07-23 01:45 宏宇阅读(194) 评论(0) 推荐(0) 编辑

【外贸推广】海外/国外动态IP代理服务商推荐（http/https/socks5）

摘要：大家都知道，目前国内用于爬虫的http-ip提供商很多，但是涉及到国外的资源就寥寥无几，几乎没有优质资源。哪怕是付费的，那么今天就分享一下几家国外适合爬虫的动态ip资源。一、FstCloud：http://www.fstcloud.net FstCloud是一家注册在香港的企业，有http/htt 阅读全文

posted @ 2021-06-16 15:46 宏宇阅读(16) 评论(0) 推荐(0) 编辑

爬虫代理哪家强？十大付费代理详细对比评测出炉

摘要：前言随着大数据时代的到来，爬虫已经成了获取数据的必不可少的方式，做过爬虫的想必都深有体会，爬取的时候莫名其妙 IP 就被网站封掉了，毕竟各大网站也不想自己的数据被轻易地爬走。对于爬虫来说，为了解决封禁 IP 的问题，一个有效的方式就是使用代理，使用代理之后可以让爬虫伪装自己的真实 IP，如果使用阅读全文

posted @ 2021-06-16 15:36 宏宇阅读(1001) 评论(0) 推荐(0) 编辑

代理选择

摘要：前言随着大数据时代的到来，爬虫已经成了获取数据的必不可少的方式，做过爬虫的想必都深有体会，爬取的时候莫名其妙 IP 就被网站封掉了，毕竟各大网站也不想自己的数据被轻易地爬走。对于爬虫来说，为了解决封禁 IP 的问题，一个有效的方式就是使用代理，使用代理之后可以让爬虫伪装自己的真实 IP，如果使用阅读全文

posted @ 2021-06-16 15:31 宏宇阅读(149) 评论(0) 推荐(0) 编辑

随笔分类 - 网络爬虫

搜索

常用链接

最新随笔

积分与排名

随笔分类 (771)

随笔档案 (2151)

文章分类 (15)

文章档案 (19)

友情链接

阅读排行榜

评论排行榜

推荐排行榜

最新评论