03 2015 档案
机器学习实践中应避免的七种常见错误
摘要:统计建模和工程开发很相似。在工程开发中,人们有多种方法搭建一套键-值存储系统,每种设计针对使用模式有一套不同的假设。在统计建模中,也有很多算法来构造一个分类器,每种算法对数据也有各自的假设集合。当处理少量数据时,因为实验成本很低,我们尽可能多的尝试各种算法,从而选出效果最优的算法。但提到“大数据”,...
阅读全文
如何识别和防止网络爬虫
摘要:stackoverflow上看到的一个回答,概念性介绍为主,总结的不错。主要就是两种,礼貌的做法是在robots.txt文件中设置允许爬虫爬取的内容;粗暴的做法又分为两种,一种是过滤user agent,另一种是布设一个陷阱,一旦该链接被请求,就认为这是爬虫的行为。原答案在这里,暂时先把原文搬过来,...
阅读全文
用python做爬虫的例子
摘要:主要就是用了两个库,urllib和BeautifulSoup.作用是从HTML中解析出解梦的查询词和具体的解释。 1 # -*- coding: utf-8 -*- 2 import urllib, urllib2 3 import time, random 4 from BeautifulSoup...
阅读全文
记录几种有关libsvm格式数据的list和dict用法
摘要:1 # list元素求和2 sum = reduce(lambda x,y: x+y, mylist)1 # 比较两个 lists 的元素是否完全一致2 if all(x==y for x, y in zip(X, Y))3 do something1 # 按照 key 排列字典的元素,以...
阅读全文
浙公网安备 33010602011771号