2018年1月4日

又碰到新问题,django

摘要: 感觉win 关于一些配置问题可能会打到一大片people。。如果没人指导的话。。。有点虐心 可谓是把该出现的问题全部出现了个遍。。 1.电脑里放了一个anaconda3.5的版本,以及3.6的纯python版本, 以前两个版本共存也相安无事,这阵子不知道为毛,两个版本的时不时都跑出来一下,这也没问题 阅读全文

posted @ 2018-01-04 15:56 java小萌新(づ ̄3 ̄) 阅读(124) 评论(0) 推荐(0) 编辑

2017年12月29日

总算导入了json数据 mongodb

摘要: 天真如我,以为导入数据很简单呀~ 没错,确实很简单,可是... 对于刚刚接触mongodb,数据库这一类的小白来说,真是要了老命了 。。。 不管怎么说,总算是连接上了,以后绝对不会忘了。。。 为什么网上就没人把这样的路径发出来呢,,,这样就一下子就会了嘛。。。 oh~ 记得在导入前,新建一个data 阅读全文

posted @ 2017-12-29 10:27 java小萌新(づ ̄3 ̄) 阅读(5972) 评论(0) 推荐(0) 编辑

2017年12月25日

MongoDB安装

摘要: 啊~ 满满的都是泪~ win系统,小白搞了老半天,终于看到它了... unix系统比较nice... 写爬虫,然后要用到这个数据库... 接下来是安装过程 1. 官网上下载对应版本。如果不知道可以输入下面命令查看 2. 阅读全文

posted @ 2017-12-25 09:57 java小萌新(づ ̄3 ̄) 阅读(149) 评论(0) 推荐(0) 编辑

2017年12月7日

模拟登陆爬虫+验证码爬虫

摘要: 啊,摸索了半天,总算有点头绪了,由于对网页结构的不清晰,被折磨了好久。。。 最近就专门研究这个爬虫问题: 1.简单单页网页的爬取 2.翻页网页的爬取(商品,新闻类啊) 3.需要登陆网页的爬取 4.需要登陆加验证的网页爬取 5.scrapy 的框架问题 6.beautifulSoup、requests 阅读全文

posted @ 2017-12-07 11:28 java小萌新(づ ̄3 ̄) 阅读(666) 评论(0) 推荐(0) 编辑

2017年11月30日

一些有用的链接

摘要: 关于scrapy: http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html beatifulsoup: https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh 阅读全文

posted @ 2017-11-30 09:48 java小萌新(づ ̄3 ̄) 阅读(124) 评论(0) 推荐(0) 编辑

2017年11月29日

第一只小爬虫

摘要: 啊~ 两个月,终于写出了人生第一只独立的小爬虫.... 抓取网易新闻页面的更新。 阅读全文

posted @ 2017-11-29 20:55 java小萌新(づ ̄3 ̄) 阅读(230) 评论(0) 推荐(0) 编辑

2017年11月28日

多线程

摘要: 在学习爬虫之前,把多线程学习了一遍,现在回顾....(=。= 中午没睡觉,头晕ing) 1.由于全局锁的概念,python实质上并不是真正意义上的多线程,只是在几个项目之间不停地做切换,人眼无法识别, 实际上在任意的指定时间里,有且仅有一个线程在运行。 2. 比如:打开pdf进程,然后同时进行打印、 阅读全文

posted @ 2017-11-28 21:47 java小萌新(づ ̄3 ̄) 阅读(107) 评论(0) 推荐(0) 编辑

关于网络爬取(爬虫)01

摘要: 所用到的工具: 1.尝试了chrome的firebug用来查看网站元素,发现不行,所以改用火狐F12查看元素 2.requests模块似乎比urllib模块的抓取要更高级一些 3.mashup 多线程爬虫流程: 1.抓取目标 2.爬虫分析工具firebug元素查看器,firebug在火狐高版本中被禁 阅读全文

posted @ 2017-11-28 21:11 java小萌新(づ ̄3 ̄) 阅读(161) 评论(0) 推荐(0) 编辑

2017年11月27日

安装外部模块 Beautiful Soup and requests

摘要: 一、在cmd控制台中操作如下: 二、再继续回到pycharm,按常规操作此模块 阅读全文

posted @ 2017-11-27 10:24 java小萌新(づ ̄3 ̄) 阅读(286) 评论(0) 推荐(0) 编辑

导航