摘要: 最近一段时间总是听到或者看到有人谈论“函数式编程”,第一次接触是在大概半年前的一次沙龙中,当时听人讲的时候,心想这有什么难理解的,函数式编程,函数嘛,那就是C呀,C++放在首位的是对象,面向对象编程,C放在首位的不是函数吗,那就是函数式编程啊,整个经验交流迷迷糊糊的,只记住了个lambda。但是在后 阅读全文
posted @ 2016-03-06 23:39 李闹闹童鞋 阅读(3464) 评论(0) 推荐(0) 编辑
摘要: 一、Git是什么? Git是一个开源的分布式版本控制系统。 1、什么是版本控制? 字面意思,控制版本,存储、追踪目录和文件的修改历史。市面上有各式各样的版本控制工具,比较常用的SVN、Git等等。 2、什么叫“分布式”版本控制? (1)集中式:版本库存放在中央服务器 (2)分布式:没有中央服务器,版 阅读全文
posted @ 2016-03-04 18:08 李闹闹童鞋 阅读(154) 评论(0) 推荐(0) 编辑
摘要: urllib库提供了一系列操作url的功能,是python处理爬虫的入门级工具,网上的学习资料也很多。我做爬虫是一开始就用了Scrapy框架,并不是一步步从urllib开始的,反而是在后来解决一些小问题的时候用到了urllib库,感觉用起来很简洁也很实用,下面是我最近的一些应用总结。 1、urlli 阅读全文
posted @ 2016-01-29 16:25 李闹闹童鞋 阅读(363) 评论(0) 推荐(0) 编辑
摘要: 最近遇到了图片处理的一些问题,python提供了一些库可以很方便地帮助我们解决这些问题,在这里把我这几天的学习总结一下。一、提取图片的RGB值 1、非代码:如果只是为了提取某张图片或者某个像素点的RGB值,用qq的截图工具就可以看到,如果不嫌麻烦也可以用下万能的Photoshop...但是... 阅读全文
posted @ 2016-01-23 23:58 李闹闹童鞋 阅读(1037) 评论(0) 推荐(0) 编辑
摘要: 这周对于Scrapy进一步学习,知识比较零散,需要爬取的网站因为封禁策略账号还被封了/(ㄒoㄒ)/~~ 一、信息存储 1、log存储命令:scrapy crawl Test --logfile=test.log——把运行输出存入log当中 也可以在代码中定义要存储的内容:self.log("Fetc 阅读全文
posted @ 2016-01-15 18:29 李闹闹童鞋 阅读(374) 评论(0) 推荐(0) 编辑
摘要: scrapy是python的一个网络爬虫框架,关于它的介绍有很多资料,这里不做过多介绍(好吧我承认我还不是很懂...)。我现在还在摸索阶段,因为用scrapy爬取的第一个网站非常简单,不涉及登陆、验证、翻页、封号等等问题,仅仅是用spiders中抓取页面内容,然后在pipelines中存入数据库,所 阅读全文
posted @ 2016-01-08 17:42 李闹闹童鞋 阅读(3060) 评论(0) 推荐(0) 编辑
摘要: 一、基本知识 1、分隔超平面(separating hyperplane) 分隔超平面,也就是分类的决策边界,分布在超平面一侧的所有数据点属于某个类别,而分布在另一侧的数据属于另一个类别 2、间隔(margin) 数据点到超平面的距离 (1)函数间隔 用z标记:z=0时,是超平面上的点; 如果z>0 阅读全文
posted @ 2014-12-25 12:26 李闹闹童鞋 阅读(212) 评论(0) 推荐(0) 编辑
摘要: 一、PCA(Principal Component Analysis) 主成分分析,数据从原来的坐标系转换到新的坐标系,只保留新坐标系中的前面几个坐标轴,即对数据进行了降维处理 1、算法描述 (1)第一个新坐标轴:原数据集中方差最大的方向 (2)第二个新坐标轴:与第一个新坐标轴正交且具有最大方差的方 阅读全文
posted @ 2014-12-25 01:44 李闹闹童鞋 阅读(247) 评论(0) 推荐(0) 编辑
摘要: 1、分类:具有类别标签,将数据集根据分到相应的类别 聚类:没有类别标签,将数据集根据他们的相似度分为不同的簇 2、监督学习:用于学习的数据集都是输入\输出数据对,学习的任务是找到输入与输出的对应规则 非监督学习:用于学习的数据集只有输入,学习的任务是对于数据进行分析,找到输出 3、分类与回归: 分类 阅读全文
posted @ 2014-12-24 02:05 李闹闹童鞋 阅读(209) 评论(0) 推荐(0) 编辑
摘要: 一、聚类算法 1、常见的聚类算法(待) 二、K均值 1、步骤 (1)随机选取K个质心 (2)分别计算每个样本与这K个质心的距离,将样本分配到距其最近的簇 (3)对K个簇分别取均值,重新选择质心。所谓的取均值就是分别对每个特征取均值,这样就会计算出一个新的数据点,将此数据点作为质心 (4)重复(2)- 阅读全文
posted @ 2014-12-24 01:38 李闹闹童鞋 阅读(155) 评论(0) 推荐(0) 编辑