07 2013 档案
摘要:这次去杭州参加阿里巴巴的离线大数据处理暑期课,得到一个思路。之前一直纠结于没有数据要怎么训练我的旅行个性化推荐。毕设木有头绪啊,做不粗来要人命呀!现在觉得可以在网上爬一些数据下来,看看能不能分析出各个景点之间的关系。现在 开贴记录自己的工作。2013.7.24使用urllib。(3.0以后urllib2就整合到urllib中了,见【这里】)import urllib.requestc = urllib.request.urlopen('http://www.baidu.com')contents = c.read()print(contents[0:50])代码参考自《集体智慧
阅读全文
摘要:referencehttps://class.coursera.org/images-2012-001/lecture/65
阅读全文
摘要:要判断Stochastic Gradient Descent是否收敛,可以像Batch Gradient Descent一样打印出iteration的次数和Cost的函数关系图,然后判断曲线是否呈现下降且区域某一个下限值的状态。由于训练样本m值很大,而对于每个样本,都会更新一次θ向量(权重向量),因此可以在每次更新θ向量前,计算当时状况下的cost值,然后每1000次迭代后,计算一次average cost的值。然后打印出iteration和cost之间的关系。1、不同曲线图代表的含义及应对策略可能会看到的曲线图有如下几种:情况1这样的曲线说明算法已经收敛。如果我们使用小一点的学习率α,那..
阅读全文
摘要:以前没弄过,开个帖子记录一下。基本上要做的就是安装JDK、安装tomcat、安装sql。1、安装JDKJDK在本机上,需要传输到远程linux服务器上。为了存放我们上传的文件。打开putty,进入/tmp目录下,新建一个java目录预备使用。PSCP是PUTTY包里面的一个文件上传工具。之前putty直接双击就可以运行了。pscp怎么双击都没用!好吧……笨拙的搜了一下使用方法,原来要从cmd底下进入到putty所在的目录(从网上下载putty.zip包,然后解压)才行。把目测要用到的地方都标注了一下。现在来编辑一下命令:pscp -P 33333 -l root -pw 123456 -2 -
阅读全文