Python技术之爬虫

随着大数据的兴起,带动了一门编程语言的发展,没错,它就是Python。

来自与wiki:

Python(英国发音:/ˈpaɪθən/ 美国发音:/ˈpaɪθɑːn/),是一种面向对象、解释型的计算机程序语言。它包含了一组功能完备的标准库,能够轻松完成很多常见的任务。它的语法简单,与其它大多数程序设计语言使用大括号不一样,它使用缩进来定义语句块。 与Scheme、Ruby、Perl、Tcl等动态语言一样,Python具备垃圾回收功能,能够自动管理内存使用。它经常被当作脚本语言用于处理系统管理任务和网络程序编写,然而它也非常适合完成各种高级任务。Python虚拟机本身几乎可以在所有的作业系统中运行。使用一些诸如py2exe、PyPy、PyInstaller之类的工具可以将Python源代码转换成可以脱离Python解释器运行的程序。 Python的官方解释器是CPython,该解释器用C语言编写,是一个由社区驱动的自由软件,目前由Python软件基金会管理。 Python支持命令式程序设计、面向对象程序设计、函数式编程、面向侧面的程序设计、泛型编程多种编程范式。

总结一下,Python是一个简单的、解释型的、交互式的、可移植的、面向对象的超高级语言,它的语法非常的清晰,写法简洁优美,适用于多种操作系统。

Python的使用场景分为几大类,它可以被用来开发web程序,网络爬虫GUI开发操作系统,等等。

今天就跟大家分享一下,基于python的网络爬虫。

  • 爱丝APP图片爬虫

    爱丝APP图片爬虫,以及免支付破解VIP看图

  • Bilibili 用户

    抓取Bilibili用户信息

  • 北邮人水木清华招聘

    Crawler_Job是获取北邮人以及水木清华论坛招聘信息的爬虫

  • 豆瓣读书

    Python所写,豆瓣读书的爬虫,方便大家搜罗各种美美书!

  • Girl-atlas

    图片爬虫,爬 http://www.girl-atlas.com 整个网站的图片

  • 机票

    Findtrip是一个基于Scrapy的机票爬虫,目前整合了国内两大机票网站(去哪儿 + 携程)

  • 抓取今日头条,网易,腾讯等新闻

    新闻抓取,索引构建,前端搜索

  • 课程格子校花榜

    爬课程格子的校花榜

  • 抓取链家网信息

    爬取北京地区链家历年二手房成交记录。

  • QQ群

    批量抓取 QQ 群信息,包括群名称、群号、群人数、群主、群简介等内容,最终生成 XLS(X) / CSV 结果文件。

  • 清华大学网络学堂爬虫

    项目目标是建立一个可以直接进行二次开发的清华网络学堂API,功能基本覆盖清华网络学堂所有功能。

  • 人人影视

    抓取人人影视指定美剧HR-HDTV的ed2k下载链接

  • 天猫双十二

    天猫双12爬虫,附266万活动商品数据。

  • 电影网站

    爬取常见电影网站的电影链,目前支持的网站有:电影天堂(www.dyt8.net)迅播影院(www.2tu.cc)

  • 微信公众号

    一个爬取微信公众号文章的爬虫

  • 新浪微博

    抓取新浪微博上的信息,一天可抓取1300万条记录

  • 知乎

    爬取知乎用户信息以及人际拓扑关系

  • 知网

    抓取知网文献

  • 知乎妹子头像

    抓取知乎上性别为女的用户的头像,由于知乎用户URL不具有规则性,所以采用BFS算法搜索所有的用户

posted on 2017-10-20 10:55  淘才  阅读(801)  评论(0编辑  收藏  举报

导航