上一页 1 2 3 4 5 6 7 8 9 ··· 25 下一页
摘要: 把字符串用后缀树的形式表现出来如下:a b c a b c a b c d e .substr[0]b c a b c a b c d e ....substr[1]c a b c a b c d e .......substr[2]a b c a b c d e ..........substr[3]b c a b c d e .............substr[4]c a b c d e ...............substr[5]a b c d e .................substr[6]b c d e ...................substr[7]c d 阅读全文
posted @ 2013-09-19 22:18 elar 阅读(8753) 评论(4) 推荐(0) 编辑
摘要: 这些天找工作,在描述自己的语言技能时,总不知道该怎么说比较清楚。精通?不敢……熟悉?多少才算……一般?了解?索性今天写了个统计代码量的小工具,把最近在做的项目放进去跑了一下,python果然只是“一般”了解,这么少的量……贴个图:代码:using System;using System.Collections.Generic;using System.ComponentModel;using System.Data;using System.Drawing;using System.Linq;using System.Text;using System.Windows.Forms;using 阅读全文
posted @ 2013-09-19 16:01 elar 阅读(9662) 评论(3) 推荐(4) 编辑
摘要: 2013百度校园招聘数据挖掘工程师一、简答题(30分)1、简述数据库操作的步骤(10分)步骤:建立数据库连接、打开数据库连接、建立数据库命令、运行数据库命令、保存数据库命令、关闭数据库连接。经萍萍提醒,了解到应该把preparedStatement预处理也考虑在数据库的操作步骤中。此外,对实时性要求不强时,可以使用数据库缓存。2、TCP/IP的四层结构(10分)3、什么是MVC结构,简要介绍各层结构的作用(10分)Model、view、control。我之前有写过一篇《MVC层次的划分》二、算法与程序设计(45分)1、由a-z、0-9组成3位的字符密码,设计一个算法,列出并打印所有可能的密码组 阅读全文
posted @ 2013-09-17 12:55 elar 阅读(58882) 评论(11) 推荐(10) 编辑
摘要: 一个暑假回来到了该找工作的紧张时期了。不过项目还是要继续做嘛,╮(╯_╰)╭,放假前用python爬到了一些网页,也尝试着分了词。现在进入文本挖掘阶段吧。R在数据挖掘和机器学习方面好似很方便,安了试试看。界面跟Matlab有几分相似呢……o(≧v≦)o~~-------2013.9.13----python分词、词频统计、寻找公共词--R还是有点偏向学术计算的语言了,最后还是换上半生不熟的python来做。之前爬到了网页数据(见上片文章【网络爬虫】最后8.3的记录),而且尝试了分词。现在完善了以下处理:1、对所有爬到是网页数据进行分词(没有设立自定义词典)如果设置自定义词典,那么分词效果会更好 阅读全文
posted @ 2013-09-04 21:04 elar 阅读(13509) 评论(0) 推荐(2) 编辑
摘要: 这次去杭州参加阿里巴巴的离线大数据处理暑期课,得到一个思路。之前一直纠结于没有数据要怎么训练我的旅行个性化推荐。毕设木有头绪啊,做不粗来要人命呀!现在觉得可以在网上爬一些数据下来,看看能不能分析出各个景点之间的关系。现在 开贴记录自己的工作。2013.7.24使用urllib。(3.0以后urllib2就整合到urllib中了,见【这里】)import urllib.requestc = urllib.request.urlopen('http://www.baidu.com')contents = c.read()print(contents[0:50])代码参考自《集体智慧 阅读全文
posted @ 2013-07-24 22:40 elar 阅读(4184) 评论(1) 推荐(0) 编辑
摘要: referencehttps://class.coursera.org/images-2012-001/lecture/65 阅读全文
posted @ 2013-07-09 16:13 elar 阅读(776) 评论(0) 推荐(1) 编辑
摘要: 要判断Stochastic Gradient Descent是否收敛,可以像Batch Gradient Descent一样打印出iteration的次数和Cost的函数关系图,然后判断曲线是否呈现下降且区域某一个下限值的状态。由于训练样本m值很大,而对于每个样本,都会更新一次θ向量(权重向量),因此可以在每次更新θ向量前,计算当时状况下的cost值,然后每1000次迭代后,计算一次average cost的值。然后打印出iteration和cost之间的关系。1、不同曲线图代表的含义及应对策略可能会看到的曲线图有如下几种:情况1这样的曲线说明算法已经收敛。如果我们使用小一点的学习率α,那.. 阅读全文
posted @ 2013-07-03 11:22 elar 阅读(3941) 评论(0) 推荐(0) 编辑
摘要: 以前没弄过,开个帖子记录一下。基本上要做的就是安装JDK、安装tomcat、安装sql。1、安装JDKJDK在本机上,需要传输到远程linux服务器上。为了存放我们上传的文件。打开putty,进入/tmp目录下,新建一个java目录预备使用。PSCP是PUTTY包里面的一个文件上传工具。之前putty直接双击就可以运行了。pscp怎么双击都没用!好吧……笨拙的搜了一下使用方法,原来要从cmd底下进入到putty所在的目录(从网上下载putty.zip包,然后解压)才行。把目测要用到的地方都标注了一下。现在来编辑一下命令:pscp -P 33333 -l root -pw 123456 -2 - 阅读全文
posted @ 2013-07-02 15:58 elar 阅读(3936) 评论(0) 推荐(0) 编辑
摘要: http://freemind.pluskid.org/应该之前是浙大计算机的,现在应该是在MIT年PHD。牛人! 阅读全文
posted @ 2013-06-28 18:45 elar 阅读(689) 评论(2) 推荐(0) 编辑
摘要: 今天有缘看到董西成写的《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》,翻了翻觉得是很有趣的而且把hadoop讲得很清晰书,就花了一下午的时间大致拜读了一下(仅浏览了感兴趣的部分,没有深入细节)。现把觉得有趣的部分记录如下。JobControl把各个job配置好后,放入JobControl中,JobControl会根据它们之间的依赖关系,分别进行调度。工作流引擎 除了JobControl外,还可以使用Oozie和Azkaban来进行工作流控制。相较于前者而言,Oozie和Azkaban可以使用图形化界面观看工作流的处理进度,另外还有其他更丰富的功能。JobTracker. 阅读全文
posted @ 2013-06-20 17:50 elar 阅读(1919) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 9 ··· 25 下一页