摘要:网站上有9000多张照片要下载: //一开始参考https://www.jb51.net/article/153275.htm用reader和writer进行io.Copy,但经常是抓取100多个网页后就崩溃了, //原因似乎是输入输出流影响或并发数量影响,代码执行快,输出流写硬盘慢。 //后来参考
阅读全文
摘要:上篇文章中,抓取网页时,本想匹配其中的汉字。由于出现乱码,只好匹配英文绕过了问题。 原因很简单:该网页没指定utf8,默认应该是GBK 解决办法也很简单:引入 "golang.org/x/text/encoding/simplifiedchinese" 比如原来的代码是 resp, err := t
阅读全文
摘要:接上一篇文章https://www.cnblogs.com/pu369/p/12202845.html只讲了原理,抽时间写个了实用版,将员工信息爬取到一个TXT文档中,以便于查询,上代码: //纯golang爬虫 package main import ( "bytes" "fmt" "io/iou
阅读全文
摘要:纯golang爬取内网网站数据 参考https://blog.csdn.net/CrazyJavaPerson/article/details/81871649 难点一:需要登录,参考我的上一篇文章https://www.cnblogs.com/pu369/p/12201707.html,找到POS
阅读全文
摘要:平时登录网站时,是在表单中填写用户名、密码,然后用鼠标点击提交。 现在想用程序抓内网网站数据,就得知道向哪个网址POST,POST了什么? 1 参考http://www.imooc.com/wenda/detail/575899,在chrome控制台中,找到Network(网络),找到Filter(
阅读全文
摘要:参考:https://studygolang.com/articles/2712
阅读全文