摘要: 爬虫 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。 用户看到的网页实质是由 HTML 代码构成的,爬虫爬来的便是这些内容,通过分析和过滤这些 HTML 代码,实现对图片、文字等资源的获取。 URL的含 阅读全文
posted @ 2019-02-24 01:22 DSKer 阅读(757) 评论(0) 推荐(0) 编辑
摘要: Git是分布式版本控制系统 版本库又名仓库,英文名repository,你可以简单理解成一个目录,这个目录里面的所有文件都可以被Git管理起来,每个文件的修改、删除,Git都能跟踪,以便任何时刻都可以追踪历史,或者在将来某个时刻可以“还原”。 git init 命令把当前目录变成Git可以管理的仓库 阅读全文
posted @ 2019-02-21 22:59 DSKer 阅读(194) 评论(0) 推荐(0) 编辑
摘要: beautiful soup 入门 Beautiful Soup 是 python 的一个库,最主要的功能是从网页抓取数据。 Beautiful Soup 自动将输入文档转换为 Unicode 编码,输出文档转换为 utf-8 编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beau 阅读全文
posted @ 2019-02-21 19:54 DSKer 阅读(200) 评论(0) 推荐(0) 编辑