摘要: 基于python3的实现,获取网页的基础技术:request、urllib、selenium;解析网页的基础技术:re正则表达式、BeautifulSoup、和lxml;储存技术:数据库或者表格。 python环境搭建: 1、pycharm; 2、anaconda,适合基础入门,自带很多包,则无需安 阅读全文
posted @ 2017-09-29 16:45 方木--数据分析与挖掘 阅读(550) 评论(1) 推荐(0) 编辑
摘要: 网络爬虫定义: web spider,网络蜘蛛是通过网页的链接地址来寻找网页的。 打开网页的过程其实就是浏览器作为一个浏览的“客户端”,向服务器端发送了 一次请求,把服务器端的文件“抓”到本地,再进行解释、展现。HTML是一种标记语言,用标签标记内容并加以解析和区分。浏览器的功能是将获取到的HTML 阅读全文
posted @ 2017-09-29 11:42 方木--数据分析与挖掘 阅读(220) 评论(1) 推荐(0) 编辑