08 2011 档案

最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用19
摘要:春节虽然离春节还有一个半月,但是过年的气氛已经开始变得越来越浓了,人们已经开始谈论着买回家的火车票,行程安排等等信息,周围都迷漫着越来越浓的年的味道。每年到这个时候,吴言都会感到未名烦燥。又一年过去,又是一事无成,今年尤其如此,连往年还算说得过去的工作都没有了,而且自己的终身大事也依然没有着落,想起要回家,面对亲戚朋友或关心或非议的目光,吴言从心里感到一丝丝的恐惧,而且这种恐惧随着年龄的增长越来越强烈,今年更是如此,感觉就像是一个令人恐惧的幽灵在身边徘徊,挥之不去。吴言深深地出了一口气,将纷乱的思绪收回来,把精力重新集中到工作上。咦?这是怎么回事,吴言在试用关于产品博客打分功能时,明明给产品博 阅读全文

posted @ 2011-08-31 12:01 最老程序员闫涛 阅读(3445) 评论(30) 推荐(12) 编辑

最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用18
摘要:英语复习课终于完成了商品相似度计算程序,吴言伸了个懒腰,走到窗前准备放松一下。吴言站在窗前向窗外望着,今天天阴得特别沉,才三点多钟,屋里就必须要开灯了。空气中迷漫着浓浓的水汽,仿佛可以拧出水来似的,应该是快要下雪了。转眼已经进入十二月份了,离自己离职创业已经有将近四个月的时间了,自己的项目到现在前景还不算明朗,一想到这些吴言的心里就不免有些着急。吴言正在沉思着,忽然手机响了起来。吴言赶紧跑过去拿起手机,一看是一个186开头的陌生号码,会是谁呢?不会是打错了吧?但是对方顽固的坚持着。吴言不情愿地接通了电话,充满戒心的问道:“喂?找哪位?”“嘿,吴言吗?我是梁秀娟!最近好吗?”对方答着。“原来是小 阅读全文

posted @ 2011-08-30 12:04 最老程序员闫涛 阅读(3374) 评论(27) 推荐(10) 编辑

最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用17
摘要:专注还是活着转眼一个月过去,吴言的项目在缓慢但是坚定的进步着,再有两三个月,这个产品应该就可以上线了,这使吴言很欣慰。但是这个介于alpha版和Beta版之间的版本上线之后,下一步再要做什么吴言目前还没有很好的打算。这天吴言正在做着程序,忽然接到了同学钟永发的电话,吴言与钟永发大毕业后的联系并不多,只知道他去了江西的一家科研院所,是做导弹的,前几年因为台湾问题,忙得总是加班,不过每年都能分个二三十万,后来在当地找了一个特别漂亮的媳妇,日子过得挺滋润。他打电话来干什么呢?吴言充满疑惑地接起了电话:“喂?永发呀!最近怎么样?”“还行吧!听小A说你开始创业了,打电话过来问问。就是,像你们这些牛人,早 阅读全文

posted @ 2011-08-29 12:50 最老程序员闫涛 阅读(2901) 评论(12) 推荐(6) 编辑

全文检索、数据挖掘、推荐引擎系列5---文章术语向量表示法
摘要:无论是要进行全文检索,还是对文章进行自动聚类分析,都需要将文章表示为术语向量(Term Vector),在Lucene内部就是通过术语向量来对文章进行索引和搜索的,但是Lucene没有向外提供合适的术语向量计算接口,所以对术语向量计算还必须我们自己来做。术语向量解述众所周知,一篇文章由一个个的单词组成,我们在进行文本处理时,首先进行中文分词,包括去除“的、地、得”等常用停止词,对关键词加上同义词,如缩写和全称,如果是英文可能还需要变为小写,去除复数和过去分词等,可能还需要提取词根,总之经过上述步聚的预处理,文章将变成由一系列单词组成的字符串数组。对一系统中的每一篇文章,我们首先计算每个单词的出 阅读全文

posted @ 2011-08-26 17:17 最老程序员闫涛 阅读(1749) 评论(3) 推荐(4) 编辑

最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用16
摘要:工作中的细节吴言的新公司好像一切都进展得很顺利,经过一周左右的磨合时间,大家彼此都变得熟悉起来,每个人也基本进入了工作状态。吴言对此非常满意,第一次转型做管理的自己,在最关键的第一周并没有出现大的失误,这个小团队已经开始工作了。但是吴言还是注意到了一些问题,虽然这些问题很小,但是吴言觉得还是需要做些处理才行。吴言首先发现,李卫东的优点是做工作非常认真,他做出的功能模块,自己在测试时从来没出现过问题,有时即使故意输入些非法数据,程序也可以非常好的处理这些异常情况。对于这点吴言相当满意,觉得李卫东将来一定可以成为一个非常优秀的人才。但是李卫东也有一个缺点,就是基础知识不扎实,一遇到问题就会束手无策 阅读全文

posted @ 2011-08-26 12:20 最老程序员闫涛 阅读(3384) 评论(26) 推荐(12) 编辑

最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用15
摘要:第一次公司全会今天是吴言约定的三个新员工报到的第一天,吴言提前就把办公室的卫生又好好搞了一遍,同时为他们分配好了座位,赵文涛和李卫东同是做开发的,坐在主卧靠窗的两个座位,曾玉洁将会做产品录入以及部分软件质量保证的工作,坐在客厅里,自己也先不坐在自己的办公室,而是坐在客厅里,这样沟通更方便。安排好所有的事情之后,吴言就开始静静地等着他们的到来。吴言好奇地想第一个到来的会是谁呢?咚咚咚,一阵敲门声,吴... 阅读全文

posted @ 2011-08-25 11:58 最老程序员闫涛 阅读(3458) 评论(26) 推荐(13) 编辑

最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用14
摘要:第一批员工吴言把自己租的房子换成了一个临街的两室两厅的单元房,里边只有简单的装修,并且没有家居和家电,虽然每月3500的租金有些贵,但是却可以同时解决吴言住宿和办公问题,吴言还是觉得挺值的。吴言首先买了个简易的地毯,铺在了原本是地砖的地上,因为这样可以防止电脑椅来回移动时产生的噪音影响邻居。然后吴言在比较大的客厅和主卧室里各摆上了四个电脑桌,这样可以方便大家的交流,同时也保证了大家都有相对隐密的个人空间,吴言觉得自己原来公司的开放式办公环境,一点私密空间都没有,感觉很不人性化,当这次自己可以做主时,在成本允许的情况下,他想尽量做到人性化。将电源线和网线都从地毯下穿过,并给每个桌子上配置了电脑, 阅读全文

posted @ 2011-08-24 12:00 最老程序员闫涛 阅读(3270) 评论(22) 推荐(9) 编辑

最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用13
摘要:半部论语创企业吴言自从创业到现在也没有多长时间,但是在这些天所经历的起起落落、悲悲喜喜却比过去的总和还要多,有时侯真的感觉心力憔悴,现在他深深的意识到应该加强自身的修养了。吴言以前有一个习惯,就是每次遇到职业瓶颈时,总喜欢买一本励志学或成功学的书来看,所以这类书是除技术类书籍外数量最多的书了。吴言一本一本的翻着这些书,比如这本书,上面写着成功很简单,只需要五步:目标明确、详细计划、立即行动、大量行动、及时总结,初看起来好像让人热血沸腾,仿佛找到了成功的捷径,但是仔一想,目标是什么?怎样明确?怎样做计划?立即行动做什么?怎么做?完全没有可操作性,就像春晚上宋丹丹的小品中所说的:“把大像装进冰箱一 阅读全文

posted @ 2011-08-23 11:54 最老程序员闫涛 阅读(3000) 评论(14) 推荐(10) 编辑

最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用12
摘要:蝴蝶结效应吴言昨天晚上熬得很晚,早上是被自己的手机来电惊醒的。谁这么早就来电话,真讨厌!吴言心里嘟囔着,不情愿的从床上爬起来,下意识的看了一下表,原来已经十点多了,已经不算早了。吴言拿起手机,无精打彩的说道:“喂?”“老吴,我是杨子健!现在说话方便吗?”原来是杨子健,他和吴言原来是一个项目组的,来公司三年多,也算是老同事了,正是他接手了吴言原来的推荐引擎开发工作。难道是自己的代码有问题他搞不定?想到离职时任总的所做所为,吴言真的是不想管了,可是想到这样会使杨子健很难受,杨子健这个人还不错,何苦为难他呢!就在吴言确认对方是杨子健的这一瞬间,吴言做出这个决定:他决定如果不是太困难的事情,就接下来, 阅读全文

posted @ 2011-08-22 12:24 最老程序员闫涛 阅读(3188) 评论(14) 推荐(9) 编辑

全文检索、数据挖掘、推荐引擎系列---去除停止词添加同义词
摘要:Lucene对文本解析是作为全文索引及全文检索的预处理形式出现的,因此在一般的Lucene文档中,这一部分都不是重点,往往一带而过,但是对于要建立基于文本的内容推荐引擎来说,却是相当关键的一步,因此有必要认真研究一下Lucene对文解析的过程。Lucene对文本的解析对用户的接口是Analyzer的某个子类,Lucene内置了几个子类,但是对于英文来说StandardAnalyzer是最常用的一个子类,可以处理一般英文的文解析功能。但是对于汉字而言,Lucene提供了两个扩展包,一个是CJKAnalyzer和SmartChineseAnalyzer,其中SmartAnalyzer对处理中文分词 阅读全文

posted @ 2011-08-19 17:13 最老程序员闫涛 阅读(2501) 评论(2) 推荐(4) 编辑

最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用11
摘要:股权激励之惑终于通过程序可以把京成商城所有产品的页面全都通过网络爬虫程序全部下载到本地来了,吴言心满意足坐在了电脑椅的靠背上,这才发现自己已经足足一动不动的在这编了将近五个小时的程序了,好累呀,吴言很有成就感地伸了一个懒腰。“哎呦!”吴言不小心把堆在电脑桌上最上面的一本书碰到的地上,低头一看,那本书打开了扣在地上,原来是于丹的论语心得。吴言弯腰把书捡了起来,一看翻开的章节正是在讲“君子不器”的那一页,此时看到这句,吴言感慨颇深。记得自己刚开始工作时,对于工作的认识只是VC、VB、Java以及数据库读写等,没有独立工作的机会,那时的自己还不能称之为器,因为还缺乏独立工作的能力。后来,自己对工作的 阅读全文

posted @ 2011-08-19 08:58 最老程序员闫涛 阅读(3197) 评论(12) 推荐(10) 编辑

最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用10
摘要:创业合作伙伴吴言最近常在创业啪网站上活动,开始这个网站吸引吴言的地方是这里有无数创投业大佬,吴言想通过这里接触到他们,但是后来发现想在这里接触投资人,显然是水中捞月镜中摘花,成功的概率与直接买彩票独中5亿差不多。但是创业啪网站上还活跃着很多草根创业者,创业者之间互相交流,给吴言的感觉似乎可以说不定在什么时侯可以擦出火花来。吴言在创业啪网站上认识了徐德才,吴言的第一印象是这个名字很好,德才兼备,其次是他就是做销售的,目前在金蝶北方区做大客户销售,按照风投们的观点,他们正好可以互补,一个负责技术一个负责市场。正好徐德才对吴言的创业项目社会化电子商务也很感兴趣,双方在网上互相交流得非常好,所以决定这 阅读全文

posted @ 2011-08-18 08:34 最老程序员闫涛 阅读(3015) 评论(15) 推荐(5) 编辑

最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用9
摘要:商业计划书虽然吴言一直觉得系统开发才是硬道理,其他神马都是浮云。但是在创业网站上,各位牛人们一遍遍重复着的商业计划书的重要性,对吴言还是产生了影响。虽然商业计划书融资价值无限接近于零,但是一个商业计划书可以为自己理清创业思路,这点吴言还是认可的。况且,万一真的通过商业计划书融到资,那就更美了。吴言不准备写几十页那种长篇大论的商业计划书,因为一件事情说清楚两三页就足够了,VC们时间都很紧张,两三页他们可能都会嫌长。虽然也有观点说,写商业计划书体现你的态度,更有甚者,有人还声称,有创业团队就是凭在上百页的商业计划书,没有一个错别字,没有一个标点符号失误,得到投资人首肯而成功融资的。对于这些吴言始终 阅读全文

posted @ 2011-08-17 09:01 最老程序员闫涛 阅读(3012) 评论(6) 推荐(4) 编辑

全文检索、数据挖掘、推荐引擎系列3---全文内容推荐引擎之中文分词
摘要:基于内容的推荐引擎有两种实现途径,一种是根据条目的元数据(可以将元数据理解为属性),另一种是根据条目的文本描述信息。本系列中将先描述基于条目描述信息的全文检索实现方式,然后描述基于元数据的内容推荐引擎实现方式。对于基于条目文本描述信息的内容推荐引擎,目前有很多资料可以参考,基本步聚是先对文本内容进行分词,包括提取出单词、去掉常用词如的地得、加入同意词、对英语还有去掉复数形式和过去分词形式等;第二步是计算各个词在每篇文章中的出现频率,以及在所有文章中的出现频率,即TF/IDF;第三步计算文章向量;最后是利用自动聚类算法,对条目进行聚类,这样就可以实现向用户推荐同类产品的需求了。但是在这里有一个非 阅读全文

posted @ 2011-08-16 11:30 最老程序员闫涛 阅读(2925) 评论(2) 推荐(4) 编辑

最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用8
摘要:辞职创业吴言在经过了几天的反复思考,终于下定决心辞职创业了。做出这个决定真的需要很大的勇气,因为自己的年纪做为程序员来说,已经属于很高龄了,如果创业失败几乎没有退路,再找工作将很难,合适的工作几乎是不可能的。但是如果一辈子就这么重复着当下的生活,他又不甘心,非常的不甘心,放弃一切也要尝试一把的诱惑使他难以抗拒。整整一个上午,吴言都在早已写好的辞职邮件界面上,他需要鼓足勇气才能按下发送按钮,但是每一次他都在最后一刻放弃了,终于在近乎于误操作的情形下,他按下了发送按钮。终于,吴言如释重负,完成了一件大事。但是心里也有了一丝的不安,创业失败和失业这些词时常在脑海里闪现,每到想起这些,吴言都会觉得脊背 阅读全文

posted @ 2011-08-16 08:30 最老程序员闫涛 阅读(5923) 评论(24) 推荐(5) 编辑

全文检索、数据挖掘、推荐引擎系列2---异步服务实现
摘要:正向前一篇分析的,在全文检索、数据挖掘、推荐引擎的后台系统中,通常可以提供三种类型的服务:同步服务、异步服务、后台服务。对于同步服务可以采用Web Service、XML Over HTTP或Restful服务,我在项目中就采用了Jason over HTTP,主要考虑Javascript解析Json效率较高,但是还要看各人喜好。对于异步服务在实现上,如果选用Java做为编程语言,基本就需要选择JMS了。而后台服务主要是定时任务,可以采用新版JEE中的Timer服务,或直接使用Timer。在JMS实现异步服务中,最简单的方法是采用消息驱动Bean来实现,但是JMS中有两种机制:一种是Queue 阅读全文

posted @ 2011-08-12 15:56 最老程序员闫涛 阅读(1501) 评论(1) 推荐(1) 编辑

最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用7
摘要:创业餐厅正在吴言为能有机会和VC面谈这一问题一愁莫展的时候,事情突然有了转机,吴言听人说,中关村这边有家创业餐厅,创业者不仅可以在里面办公,还可以在那里很方便的见到著名投资人,而且那里的投资人都对早期项目感兴趣,并且这个地方刚办几个月,就有好几个在那里长期办公的团队获得了天使投资。竟然还有这样的机构,对自己这样的创业者来说,简直是再合适不过了,所以吴言决定要去那里试一试。吴言一大早就赶到了创业餐厅,吴言刚到那就被门口的标语吸引住了,上面写着:“VC欢迎,有梦想谁都了不起,互联网创造奇迹”。感觉真亲切,同时又似曾相识,“呕,这是奥运歌曲北京欢迎你嘛!”吴言恍然大悟,但是用在这里显得格外贴切。在刚 阅读全文

posted @ 2011-08-12 11:45 最老程序员闫涛 阅读(3489) 评论(10) 推荐(7) 编辑

全文检索、数据挖掘、推荐引擎系列1---技术架构思考
摘要:我的小说《最老程序员创业札记-全文检索、数据挖掘、推荐引擎应用》的技术系列文章的第一篇,由于本人也是在一个LBS问答项目中使用,各方面考虑得不完善,希望能够得到大家的帮助,谢谢大家的支持。在后web2.0时代,简单的允许用户产生内容,连接用户组成社交网络,满足用户个性化需求,已经变成各个网站的标配,不可能成为网站的特色和竞争优势了。然而,随着用户产生内容的增多,用户与系统交互手段的丰富,用户可供选择的选项的增多,用户迫切需要一种可以处理当前信息爆炸时代的工具,可以迅速找到自己想要的内容,更加容易的做出正确的决策,因此在后web2.0时代,全文检索、数据挖掘、推荐引擎的应用,将是各大网站下一轮竞 阅读全文

posted @ 2011-08-11 09:30 最老程序员闫涛 阅读(2044) 评论(3) 推荐(4) 编辑

最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用6
摘要:山寨工场奇遇记吴言这几天感觉自己像一台多线程运行的机器,一边是公司没完没了的系统升级需求,一边是自己社会化电子商务实现,还有就是恶补各种创业知识,吴言渐渐感到力不从心了,但是他依然坚持着。这不,今天刚打开网络,在浏览创业新闻时,就被一条新闻稿给吸引了,新闻稿讲的是北京山寨工场,创始人钟清时是全球五百强顶级企业全球高级副总裁,在两年前,在病中,在不影响企业日常管理工作的情况下,利用业余时间,拖着病体,在两三周内就融到了10亿美金,在当时更有山西煤老、浙商以及各自色爆发户,甚至还有地方政府大员,跪求投资而没有得到允许。由于山寨工场开创了中国创投业的新时代,开办之初就火的一塌糊涂。由于希望加入的简历 阅读全文

posted @ 2011-08-11 08:39 最老程序员闫涛 阅读(4078) 评论(14) 推荐(7) 编辑

最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用5
摘要:互联网创业宝典吴言这几天参加了无数创业交流活动,看了无数的创业网站,但是本来很清晰的创业思路,恶补了这些创业秘诀和宝典之后,变得越来越糊涂了。吴言决定请教高人来指点一下,自然他想到了同学小A,小A是他上学睡他下铺的兄弟,真名叫陈永强,因为上学时总是考试都得A,所以才得到小A的称号。小A毕业后一直做销售工作,开始时小A经常蹭吴言的饭局和房子住,不过小A在毕业三五年之后,突然发迹,开始买了辆Sail,后来又换成了奥迪A6L,还做到了公司销售副总的位置。房子也从天通苑的二手经济适用房变成了雪梨澳乡的别墅。不过他们还始终保持着比较紧密的联系,小A的老婆就是小A在一个下雨天,用车送吴言参加老乡会,然后送 阅读全文

posted @ 2011-08-10 08:20 最老程序员闫涛 阅读(4360) 评论(11) 推荐(5) 编辑

最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用3
摘要:通向管理之路吴言今天又起了个大早,来到写字楼的大厅时还不到八点,平时拥挤的电梯间现在还空无一人,吴言过去按下了上楼的按钮。“嗨!老吴,早呀!”吴言回头一看,原来是行政部的程静,是个特别活泼开朗的外向型小姑娘,在研发部里很有人缘。“你也挺早呀!”吴言回了一句。“我帮王总准备点文件,他呆会儿要出去见客户,昨天晚上十点多才给我打电话,没办法,一大早就得过来。”程静回答道。电梯过来了,两人一前一后上了电梯。“对了,你们研发部门要加一个技术总监的职位,这回该轮到你了吧!”吴言一愣,他怎么不知道,每次公司有什么变化,他总是后知后觉,他一直奇怪,这些同事都是从哪得来的这些小道消息。“有吗?我怎么不知道?你听 阅读全文

posted @ 2011-08-08 10:59 最老程序员闫涛 阅读(5115) 评论(28) 推荐(7) 编辑

最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用2
摘要:吴言的直接上司张宏宇比他小10岁,是一个北大毕业的硕士,头脑相当灵活,办事效率非常高,常常别人还不明白是怎么回事的时侯他就恍然大悟了。他的头衔是研发总监,实际上就是研发部门经理,手下有20几个人,他还有一个漂亮的女朋友,靓照就放在笔记本的桌面上,每次开会时,都让这些程序员们眼馋得直流口水。哎,天下的好事怎么都让他一人占尽了呢!事情的起因很偶然,公司准备在网上商城开始销售化妆品,需要研发部门提供推荐... 阅读全文

posted @ 2011-08-05 08:10 最老程序员闫涛 阅读(10605) 评论(49) 推荐(27) 编辑

最老程序员创业札记:全文检索、数据挖掘、推荐引擎应用1
摘要:程序员利用全文检索、数据挖掘、推荐引擎技术创业的故事。 阅读全文

posted @ 2011-08-04 09:55 最老程序员闫涛 阅读(6070) 评论(7) 推荐(21) 编辑

导航