摘要:
首先明白一点,我为什么要学数据分析与挖掘,学这个东西的点在哪,学了有什么用,这个百度一下都知道,我自己也是刚开始学,所以就不废话了。 我前段时间学了线性回归和逻辑回归模型,花了我12天的时间,终于把来龙去脉搞懂了,有人肯定会问,为什么需要这么久,原因就是我的python基础不扎实,看别人代码的时候都 阅读全文
摘要:
首先明白一点,我为什么要学数据分析与挖掘,学这个东西的点在哪,学了有什么用,这个百度一下都知道,我自己也是刚开始学,所以就不废话了。 我前段时间学了线性回归和逻辑回归模型,花了我12天的时间,终于把来龙去脉搞懂了,有人肯定会问,为什么需要这么久,原因就是我的python基础不扎实,看别人代码的时候都 阅读全文
摘要:
我们知道,javascript动态渲染页面不止ajax这一种,有些网站可能整个都是由javascript渲染后生成的,还有些网站,比如淘宝,它虽然有ajax请求,但其中加入了很多复杂的参数,需要耗费大量时间才能找出规律,这时候,我们就可以用selenium,它可以直接模仿浏览器运行,并且抓取在运行时 阅读全文
摘要:
我昨天在安装MongoDB时,遇到了一个问题,搞了一天,安装完,发现连接不上,一直出现这样的错误 ‘pymongo.errors.OperationFailure: not authorized on test to execute command { listCollections: 1, cur 阅读全文
摘要:
我们知道,有时候直接利用requests请求得到的原始数据是无效的,因为很多时候,这样获取的一个网页的源代码很可能就几行,明显不是我们想要的东西,这个时候,我们就可以分析,这样的网页中是不是加入了ajax请求,即原始页面加载完成后,会再向服务器请求某个接口去获取数据,然后才被呈现到网上的。 ajax 阅读全文
摘要:
初级的爬虫,此处不涉及其他解析工具,用的是正则表达式,因为这个是必须要学的,请求网页用的是requests库。 阅读全文
摘要:
本人半道出家,自学python,才疏学浅,如有错误的地方,还望大神纠正 所谓爬虫,就是一段代码,可以爬取网页信息的代码,可以说未来的世界,数据就是财富,可见数据的重要性,但怎样获得数据是一个问题,而爬虫是一个很好的选择。 我只接触过python,所以在此写写学习python及爬虫的一些东西 学习写爬 阅读全文
摘要:
# 正则表达式(Regular Expression,re)-用来匹配符合某个规则的字符串-检索/替换某些文本数据 #正则的写法- .(点号):表示任意一个字符,除了\n,比如查找所有的一个字符 .- []:匹配括号中列举的任意字符,比如[L,Y,0],LLY,Y0等都可以- \d:任意一个数字- 阅读全文
摘要:
#迭代器-可迭代(Iterable):直接用于for循环的变量#可迭代 #迭代器(Iterator):不但可以作用于for循环,还可以被next调用-list是典型的可迭代对象,但不是迭代器-通过isinstance判断#可迭代l = [i for i in range(10)]#l是可迭代的,但不 阅读全文
摘要:
#多进程与多线程-进程:程序运行的一个状态 -包含地址空间/内存/数据栈等 -每个进程有自己独立运行的空间,但数据共享是一个问题-线程 -一个进程的独立运行片段,一个进程可以有多个线程 -轻量化的进程 -一个进程的多个线程间可以共享数据和上下文运行环境 -互斥问题-全局解锁器(GIL) -pytho 阅读全文
摘要:
#LOG-logging-logging模块提供模块级别的函数记录日志-包括四大组件 #日志相关概念-日志-日志的级别(level) -不同的用户关注不同的程序信息 -DEBUG -INFO -NOTICE -WARNING -ERROR -CRITICAL -ALERT -EMERGENCT-IO 阅读全文
|