随笔分类 -  爬虫

爬虫方面的资料
Python爬虫技巧
摘要:Python爬虫技巧一之设置ADSL拨号服务器代理 reference: https://zhuanlan.zhihu.com/p/25286144 爬取数据时,是不是只能每个网站每个网站的分析,有没有通用的方式 做爬虫也好多年了,一般抓取网站中的标题,文章发布时间,正文,文章图片。可以做到 80% 阅读全文

posted @ 2017-03-26 23:13 alex.shu 阅读(475) 评论(0) 推荐(0) 编辑

爬虫数据采集技术趋势-智能化解析
摘要:爬虫工作内容 互联网作为人类历史最大的知识仓库,是没有充分结构化的。目前互联网仅仅是一些文本等多媒体数据的聚合,内容虽然非常有价值,但是程序是无法使用那些没有结构化的数据。 在2006年左右,有专家提出的web3.0,语义互联网,知识共享。虽然现在开放API,SOA概念越来越普及,真正语义上的互联网 阅读全文

posted @ 2017-03-14 15:46 alex.shu 阅读(1251) 评论(0) 推荐(0) 编辑

AES加解密JS和php互相处理字符
摘要:Reference: http://blog.csdn.net/carlos__z/article/details/53185082 JavaScript code? 1 2 3 4 5 6 7 8 9 10 11 text = 'T10515'; var key = '123454536f6674 阅读全文

posted @ 2017-01-23 17:18 alex.shu 阅读(2557) 评论(0) 推荐(0) 编辑

scrapy+Lucene搭建小型搜索引擎
摘要:Reference: http://blog.csdn.net/napoay/article/details/51477586 一、选题 工程类搜索型: 定向采集 3-4 个新闻网站, 实现这些网站信息的抽取、索引和检索。网页数 目不少于 10 万条。能按相关度、时间、热度 (需要自己定义) 等属性 阅读全文

posted @ 2017-01-10 19:11 alex.shu 阅读(2389) 评论(0) 推荐(0) 编辑

部分网站允许空白referer的防盗链图片的js破解代码
摘要:Reference: http://www.114390.com/article/27125.htm Javascript源码: 复制代码代码如下: function showImg( url ) { var imgid = Math.random(), frameid = 'frameimg' + 阅读全文

posted @ 2016-12-02 16:08 alex.shu 阅读(238) 评论(0) 推荐(0) 编辑

python3自动下载优酷视频小程序
摘要:我们一般都在优酷里看一些好玩的视频,有时候看到精彩的就想下载到本地保存起来留作纪念,在win下可以用维棠等软件下载,但苦了用linux的孩子们。尽管chrome和firefox的一些插件可以下载,但有时候下载下来是分段的视频,还要手动用ffmpeg合成一个视频太繁琐,而且用插件下载要点击好多次鼠标, 阅读全文

posted @ 2016-10-21 12:39 alex.shu 阅读(3290) 评论(1) 推荐(0) 编辑

今日头条视频Url嗅探
摘要:1.打开http://toutiao.com/a6309254755004875010/,查看网页源代码获取videoid = 0425d8f0c2bb425d9361c0eb2eeb4f16 2.拼接成如下字符串/video/urls/v/1/toutiao/mp4/{videoid}?r={ra 阅读全文

posted @ 2016-10-14 16:30 alex.shu 阅读(1640) 评论(1) 推荐(0) 编辑

可视化爬虫资料
摘要:Reference: http://toutiao.com/a6319955208902869250/ 随着Scrapy等框架的流行,用Python等语言写爬虫已然成为一种时尚。但是今天,我们并不谈如何写爬虫,而是说说不要写代码就能写出来的爬虫。 爬虫新时代 在早期互联网世界,写爬虫是一项技术含量非 阅读全文

posted @ 2016-09-18 00:21 alex.shu 阅读(978) 评论(0) 推荐(0) 编辑

selenium Chromediver
摘要:Here we use wget to fetch the version number of the latest release, then plug the version into another wget invocation in order to fetch the chromedri 阅读全文

posted @ 2016-03-23 15:57 alex.shu 阅读(202) 评论(0) 推荐(0) 编辑

Python使用Selenium/PhantomJS
摘要:安装selenium: 1 pip install selenium 1 pip install selenium 1 pip install selenium pip install selenium 安装PhantomJS: 1 2 3 4 https://bitbucket.org/ariya 阅读全文

posted @ 2015-05-11 11:29 alex.shu 阅读(879) 评论(0) 推荐(0) 编辑

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示