elar - 博客园

2013年5月2日

摘要：好文推荐《两年内从零到每月十亿 PV 的发展来谈 Pinterest 的架构设计》地址： http://www.oschina.net/translate/scaling-pinterest-from-0-to-10s-of-billions-of-page-views?from=20130428英文原文： Scaling Pinterest - From 0 to 10s of Billions of Page Views a Month in Two Years介绍了web规模不断扩大时的框架应对策略，以及产品的选择。非常棒！都是干活！！阅读全文

posted @ 2013-05-02 09:35 elar 阅读(310) 评论(0) 推荐(0)

2013年4月24日

《集体智慧编程》读书笔记 2 - 网页排名

摘要：搜索与排名1、全文搜索引擎，允许人们在大量文档中搜索一些列单词，并根据文档与这些单词的关联程度对结果进行排名。2、词干提取算法（stemming algorithm）词干提取算法试图将单词转换成对应的词干。例如，将单词“indexing”转换成“index”，这样当人们在搜索“index”时，也同样会得到包含indexing单词的文档。3、基于内容的排名法（content-based ranking）content-based ranking是根据网页的内容，利用某些可行的度量方式来对查询结果进行判断的。常用的评价度量有三个：①单词频度被查询的单词在文档中出现的次数，它可以帮助我们判断该单词与阅读全文

posted @ 2013-04-24 17:13 elar 阅读(508) 评论(0) 推荐(0)

【基础知识】之堆排序（heap sorting）

摘要： Sorting比较好的排序算法可以把时间复杂度控制在O(n*log2n)，最糟的情况是O(n2).应该将sort当作一项基础处理，因为对于很多问题，当其数据变成sorted items时，解决起来会很容易。Stable Sorting对于key相同的元素，有时我们需要保持它们原先的顺序。但不幸的是，很少有快速算法是stable的。不过，我们可以将元素的位置作为第二参考量，当元素a.key = b.key时，原先位置小的仍然排在前面。选择排序（selection sort）选择排序就是将一个item list分为两部分，一部分是sorted，一部分是unsorted。每次都从unsorted的部阅读全文

posted @ 2013-04-24 11:29 elar 阅读(1461) 评论(0) 推荐(1)

2013年4月23日

《集体智慧编程》读书笔记 1 聚类简介

摘要： 1、聚类算法的目的是采集数据，然后从中找出不同的群组。2、Universal Feed Parser可以方便地解析RSS订阅源，即从RSS或Atom订阅源中得到标题、链接和文章的内容。3、皮尔逊相关度其实判断的是两组数据与某条直线的拟合程度，当两者完全匹配时，计算结果为1.0，当两者毫无关系时，计算结果为0.0.4、分级聚类分级聚类的结果会产生一棵树：分级聚类虽然会返回一棵形象直观的树，但这种方法有两个缺点。在没有额外指定的情况下，树形视图不会真正将数据拆分成不同的组，而且该算法的计算量惊人。因为我们必须计算每两个数据项之间的关系，并且在合并项之后这些关系还得再计算，所以在处理大规模的数据集时阅读全文

posted @ 2013-04-23 19:11 elar 阅读(1099) 评论(0) 推荐(0)

2013年4月16日

【转】JDBC transaction

摘要：在mysql的文档里面看到一段有用的transaction代码，摘录留用。关键的部分都用红字标出。public void updateCoffeeSales(HashMap<String, Integer> salesForWeek) throws SQLException { PreparedStatement updateSales = null; PreparedStatement updateTotal = null; String updateString = "update " + dbName + ".COFFEES " + & 阅读全文

posted @ 2013-04-16 15:36 elar 阅读(416) 评论(0) 推荐(0)

部分博文目录索引

摘要：》》paper及文章《《 2020 https://www.usenix.org/system/files/conference/atc13/atc13-bronson.pdf （TAO） https://www.usenix.org/system/files/conference/nsdi13/n 阅读全文

posted @ 2013-04-16 15:02 elar 阅读(662) 评论(0) 推荐(0)

使用MySQL周期任务来定时清理在线用户列表

摘要：情景设定客户端为android手机，登录后希望保存其在线状态（server端），并且对于每一个在线用户都有一个相应的checksum值，每次执行操作时需要校验该值。为了防止黑客截获checksum值进行二次攻击，因此checksum值在每次登录或间隔一段时间后都会动态改变。因此需要在server端保存用户的在线状态，当用户离线时或超出一定时间没有操作时，删掉在线记录，这样每次新登录时就会产生新的checksum值。问题需要定时清理过期的在线用户，因为有的用户喜欢保存密码而不使用登出功能。解决方法定时清理过期的在线用户，可以想到使用一些周期性的定时任务。定时任务可以设置在操作系统中，... 阅读全文

posted @ 2013-04-16 11:45 elar 阅读(5603) 评论(0) 推荐(1)

2013年4月11日

【基础知识】之 Binary Search Tree 二叉搜索树

摘要：前言这个系列是毕业找工作的复习笔记，希望可以和广大正准备毕业的童鞋一起打牢基础，迎接各种笔试……为了应付中英文笔试，关键词都用英文进行标注，这样就不怕面对英文题目了。之所以开始这一系列是因为之前在参加微软笔试的时候，被一道stable sorting的选择题给卡住了，才发现自己的基本功什么时候变得这么差了。既然要找工作就要好好复习，从最基础的开始。算法的部分来自《The Algorithm Design Manual》的笔记。结构特点二叉搜索树的特点是，小的值在左边，大的值在右边，即比如：这样的结构有一个好处是很容易获得最大值（Maximum）、最小值（minimum）、某元素的前驱（Prec 阅读全文

posted @ 2013-04-11 19:05 elar 阅读(26349) 评论(1) 推荐(1)

2013年4月9日

Java JS SHA-256

摘要：本来想用MD5做散列来做密码传输的，无奈现在字典满天飞，而且已经被碰撞破解了。后打算用SHA1，但是到MD5.JS 上一看，人家作者推荐用SHA256或者更强的。好吧，那就改用SHA256好了。服务器端JAVA的MessageDigest类直接可以做SHA散列，不过散列完以后是Byte[]类型数据，所以还要再处理一下，使用apache的commons-codec库来做，就不自己写了。commons-codec库的下载地址：http://commons.apache.org/proper/commons-codec/download_codec.cgi代码是：（标红的是关键语句）import j 阅读全文

posted @ 2013-04-09 16:30 elar 阅读(18506) 评论(0) 推荐(3)

密码的安全性问题 - 笔记

摘要：《Using one-time passwords to prevent password phishing attacks》讲说可以使用一次性的密码，当用户注册时候，通过用户填写的联系方式，如手机或者email来发送一次性密码。之后的登录貌似也是一样的。《Kamouflage Loss-Resistant Password Management》斯坦福的。讲说一般的系统都只存储用户的密码S。他们提出一个框架是存储S + （N-1）个S的变种，认为当用户设备被盗时，黑客破解的时间会增加。不过没看完这篇，跟我们的需求不符。Digest access authenticationIt applie 阅读全文

posted @ 2013-04-09 10:36 elar 阅读(431) 评论(0) 推荐(0)

公告