elar - 博客园

2013年9月19日

摘要：把字符串用后缀树的形式表现出来如下：a b c a b c a b c d e .substr[0]b c a b c a b c d e ....substr[1]c a b c a b c d e .......substr[2]a b c a b c d e ..........substr[3]b c a b c d e .............substr[4]c a b c d e ...............substr[5]a b c d e .................substr[6]b c d e ...................substr[7]c d 阅读全文

posted @ 2013-09-19 22:18 elar 阅读(8785) 评论(4) 推荐(0)

代码量统计工具

摘要：这些天找工作，在描述自己的语言技能时，总不知道该怎么说比较清楚。精通？不敢……熟悉？多少才算……一般？了解？索性今天写了个统计代码量的小工具，把最近在做的项目放进去跑了一下，python果然只是“一般”了解，这么少的量……贴个图：代码：using System;using System.Collections.Generic;using System.ComponentModel;using System.Data;using System.Drawing;using System.Linq;using System.Text;using System.Windows.Forms;using 阅读全文

posted @ 2013-09-19 16:01 elar 阅读(9712) 评论(3) 推荐(4)

2013年9月17日

数据挖掘工程师笔试及答案整理

摘要： 2013百度校园招聘数据挖掘工程师一、简答题（30分）1、简述数据库操作的步骤（10分）步骤：建立数据库连接、打开数据库连接、建立数据库命令、运行数据库命令、保存数据库命令、关闭数据库连接。经萍萍提醒，了解到应该把preparedStatement预处理也考虑在数据库的操作步骤中。此外，对实时性要求不强时，可以使用数据库缓存。2、TCP/IP的四层结构（10分）3、什么是MVC结构，简要介绍各层结构的作用（10分）Model、view、control。我之前有写过一篇《MVC层次的划分》二、算法与程序设计（45分）1、由a-z、0-9组成3位的字符密码，设计一个算法，列出并打印所有可能的密码组阅读全文

posted @ 2013-09-17 12:55 elar 阅读(58954) 评论(11) 推荐(10)

2013年9月4日

文本挖掘

摘要：一个暑假回来到了该找工作的紧张时期了。不过项目还是要继续做嘛，╮(╯_╰)╭，放假前用python爬到了一些网页，也尝试着分了词。现在进入文本挖掘阶段吧。R在数据挖掘和机器学习方面好似很方便，安了试试看。界面跟Matlab有几分相似呢……o(≧v≦)o~~-------2013.9.13----python分词、词频统计、寻找公共词--R还是有点偏向学术计算的语言了，最后还是换上半生不熟的python来做。之前爬到了网页数据（见上片文章【网络爬虫】最后8.3的记录），而且尝试了分词。现在完善了以下处理：1、对所有爬到是网页数据进行分词（没有设立自定义词典）如果设置自定义词典，那么分词效果会更好阅读全文

posted @ 2013-09-04 21:04 elar 阅读(13568) 评论(0) 推荐(2)

2013年7月24日

网络爬虫

摘要：这次去杭州参加阿里巴巴的离线大数据处理暑期课，得到一个思路。之前一直纠结于没有数据要怎么训练我的旅行个性化推荐。毕设木有头绪啊，做不粗来要人命呀！现在觉得可以在网上爬一些数据下来，看看能不能分析出各个景点之间的关系。现在开贴记录自己的工作。2013.7.24使用urllib。（3.0以后urllib2就整合到urllib中了，见【这里】）import urllib.requestc = urllib.request.urlopen('http://www.baidu.com')contents = c.read()print(contents[0:50])代码参考自《集体智慧阅读全文

posted @ 2013-07-24 22:40 elar 阅读(4211) 评论(1) 推荐(0)

2013年7月9日

几个重要的密度函数

摘要： referencehttps://class.coursera.org/images-2012-001/lecture/65 阅读全文

posted @ 2013-07-09 16:13 elar 阅读(796) 评论(0) 推荐(1)

2013年7月3日

Stochastic Gradient Descent收敛判断及收敛速度的控制

摘要：要判断Stochastic Gradient Descent是否收敛，可以像Batch Gradient Descent一样打印出iteration的次数和Cost的函数关系图，然后判断曲线是否呈现下降且区域某一个下限值的状态。由于训练样本m值很大，而对于每个样本，都会更新一次θ向量（权重向量），因此可以在每次更新θ向量前，计算当时状况下的cost值，然后每1000次迭代后，计算一次average cost的值。然后打印出iteration和cost之间的关系。1、不同曲线图代表的含义及应对策略可能会看到的曲线图有如下几种：情况1这样的曲线说明算法已经收敛。如果我们使用小一点的学习率α，那.. 阅读全文

posted @ 2013-07-03 11:22 elar 阅读(4038) 评论(0) 推荐(0)

2013年7月2日

使用putty部署远程J2EE环境

摘要：以前没弄过，开个帖子记录一下。基本上要做的就是安装JDK、安装tomcat、安装sql。1、安装JDKJDK在本机上，需要传输到远程linux服务器上。为了存放我们上传的文件。打开putty，进入/tmp目录下，新建一个java目录预备使用。PSCP是PUTTY包里面的一个文件上传工具。之前putty直接双击就可以运行了。pscp怎么双击都没用！好吧……笨拙的搜了一下使用方法，原来要从cmd底下进入到putty所在的目录（从网上下载putty.zip包，然后解压）才行。把目测要用到的地方都标注了一下。现在来编辑一下命令：pscp -P 33333 -l root -pw 123456 -2 - 阅读全文

posted @ 2013-07-02 15:58 elar 阅读(3968) 评论(0) 推荐(0)

2013年6月28日

大牛的博客

摘要： http://freemind.pluskid.org/应该之前是浙大计算机的，现在应该是在MIT年PHD。牛人！阅读全文

posted @ 2013-06-28 18:45 elar 阅读(700) 评论(2) 推荐(0)

2013年6月20日

笔记 Hadoop

摘要：今天有缘看到董西成写的《Hadoop技术内幕：深入解析MapReduce架构设计与实现原理》，翻了翻觉得是很有趣的而且把hadoop讲得很清晰书，就花了一下午的时间大致拜读了一下（仅浏览了感兴趣的部分，没有深入细节）。现把觉得有趣的部分记录如下。JobControl把各个job配置好后，放入JobControl中，JobControl会根据它们之间的依赖关系，分别进行调度。工作流引擎除了JobControl外，还可以使用Oozie和Azkaban来进行工作流控制。相较于前者而言，Oozie和Azkaban可以使用图形化界面观看工作流的处理进度，另外还有其他更丰富的功能。JobTracker. 阅读全文

posted @ 2013-06-20 17:50 elar 阅读(1951) 评论(0) 推荐(0)

公告