摘要: 2019年3月19早上8点,手机里突然弹出腾讯裁员10%的消息,自从去年年底以来,互联网企业裁员已经不是什么新鲜事了,很多中小企业都经历了裁员风波,但是今天腾讯裁员的消息,还是挺让人惊讶的,作为互联网企业的绝对巨头,手握着QQ和微信两大社交产品,2018年收入即将突破3000亿人民币的互联网巨头,传 阅读全文
posted @ 2019-03-20 09:21 alunbar 阅读(1281) 评论(0) 推荐(0) 编辑
摘要: 使用python进行数据分析时,经常会用Pandas类库处理数据,将数据转换成我们需要的格式。Pandas中的有两个数据结构和处理数据相关,分别是Series和DataFrame。 Series Series是一种类似于一维数组的对象,它有两个属性,value和index索引。可以像数组那样通过索引 阅读全文
posted @ 2019-03-20 09:03 alunbar 阅读(738) 评论(0) 推荐(1) 编辑
摘要: numpy类库是数据分析的利器,用于高性能的科学计算和数据分析。使用python进行数据分析,numpy这个类库是必须掌握的。numpy并没有提供强大的数据分析功能,而是它提供的ndarray数据结构能够让你快速的处理海量的数据。 shape和dtype属性 ndarray是numpy的多维数组对象 阅读全文
posted @ 2019-02-25 19:51 alunbar 阅读(670) 评论(0) 推荐(0) 编辑
摘要: 数据分析就是将数据以各种图表的形式展现给领导,供领导做决策用,因此熟练掌握饼图、柱状图、线图等图表制作是一个数据分析师必备的技能。Python有两个比较出色的图表制作框架,分别是Matplotlib和Pyechart。本文主要讲述使用Matplotlib制作各种数据图表。 Matplotlib是最流 阅读全文
posted @ 2019-01-13 15:29 alunbar 阅读(2281) 评论(0) 推荐(0) 编辑
摘要: 最近学习了一些爬虫技术,想做个小项目检验下自己的学习成果,在逛某东的时候,突然给我推荐一个TT的产品,点击进去浏览一番之后就产生了抓取TT产品,然后进行数据分析,看下那个品牌的TT卖得最好。 本文通过selenium抓取TT信息,存入到mongodb数据库中。 抓取TT产品信息 TT产品页面的连接是 阅读全文
posted @ 2019-01-09 23:41 alunbar 阅读(2595) 评论(9) 推荐(1) 编辑
摘要: 最近学习scrapy爬虫框架,在使用pycharm安装scrapy类库及创建scrapy项目时花费了好长的时间,遇到各种坑,根据网上的各种教程,花费了一晚上的时间,终于成功,其中也踩了一些坑,现在整理下相关教程,希望帮助那些遇到和我一样问题的码农。 1、环境 操作系统:windows10。 pyth 阅读全文
posted @ 2018-12-20 21:09 alunbar 阅读(22839) 评论(2) 推荐(1) 编辑
摘要: 最近在使用爬虫爬取数据时,经常会返回403代码,大致意思是该IP访问过于频繁,被限制访问。限制IP访问网站最常用的反爬手段了,其实破解也很容易,就是在爬取网站是使用代理即可,这个IP被限制了,就使用其他的IP。对于高大上的公司来说,他们基本都使用收费的代理,基本不会有什么问题,比较稳定。像我这样的矮 阅读全文
posted @ 2018-12-14 10:00 alunbar 阅读(1401) 评论(0) 推荐(2) 编辑
摘要: layout: article title: 一起学爬虫——使用selenium和pyquery爬取京东商品列表 mathjax: true 今天一起学起使用selenium和pyquery爬取京东的商品列表。本文的所有代码是在pycharm IDE中完成的,操作系统window 10。 1、准备工 阅读全文
posted @ 2018-12-11 13:45 alunbar 阅读(1803) 评论(0) 推荐(2) 编辑
摘要: 目前很多网站都使用ajax技术动态加载数据,和常规的网站不一样,数据时动态加载的,如果我们使用常规的方法爬取网页,得到的只是一堆html代码,没有任何的数据。 请看下面的代码: 上面的代码是爬取今日头条的一个网页,并打印出get方法返回的文本内容如下图所示,值现在一堆网页代码,并没有相关的头条新闻信 阅读全文
posted @ 2018-12-07 21:44 alunbar 阅读(14681) 评论(0) 推荐(2) 编辑
摘要: 什么是PyQuery PyQuery是一个类似于jQuery的解析网页工具,使用lxml操作xml和html文档,它的语法和jQuery很像。和XPATH,Beautiful Soup比起来,PyQuery更加灵活,提供增加节点的class信息,移除某个节点,提取文本信息等功能。 初始化PyQuer 阅读全文
posted @ 2018-12-03 06:00 alunbar 阅读(1061) 评论(0) 推荐(1) 编辑