摘要:
这段时间需要部署tensorflow到linux上,由于堡垒机不能连外网,所以pip、apt-get、wget、git统统不能用,然后就是各种调试了,下面整理了一些遇到的问题和解决方案,供大家参考(CentOS/Python3.4),有什么遗漏的问题还望大家补充。 1、Putty、XShell、Se 阅读全文
摘要:
这篇文章讲无权二分图(unweighted bipartite graph)的最大匹配(maximum matching)和完美匹配(perfect matching),以及用于求解匹配的匈牙利算法(Hungarian Algorithm);不讲带权二分图的最佳匹配。 二分图:简单来说,如果图中点可 阅读全文
摘要:
1.思路:(1)模式识别:结合uc表的title和job_title字段探索职能结构模式;(2)识别职能:根据识别后的模式实现title的识别;(3)识别方法改进调优:由于识别后的结果中仍可能存在过于细节噪音信息(如:java支付金融业务架构师),故使用title关键字构建trie森林结构,实现ti 阅读全文
摘要:
转眼间已经工作了一段时间了,回想起2014年初学机器学习时的付出、艰苦和努力,感觉都是值得的。从现在往前看,我是沿着“计算机->统计学->数据分析->数据挖掘->机器学习->文本挖掘”的路径走过来的,我觉得这个思路还是属于比较传统的进阶方法,学习的内容有不少的冗余,但相对来说更稳健一些。今天写这篇文... 阅读全文
摘要:
很偶然的机会,我的老师让我做一个关于互联网未来世界的设想。以前曾经浅显的想过,但是真的没有深入的思考过这样一个宏伟的问题。我只是一个普通的人,一个工作没多久的小技术,沧海一粟,河海一滴,我也还无法站到那么那么高的高度去俯瞰脚下的大地。但是,我不是井底之蛙,我希望站到更高的地方去了解这个世界。所以,我... 阅读全文
摘要:
最近在用CRF做未登录技能词识别,虽然艰难,但是感觉很爽,效率非常高。(1)数据准备:选取30000行精语料作为训练数据。每一个br作为一条数据。使用已有的技能词典对数据进行无标注分词。(2)训练数据标注:对分词后的语料进行标注。如果某分词结果在技能词典中,则该词作为技能词进行标注;如果某分词结果不... 阅读全文
摘要:
最近工作了一段时间,今天跟大家讨论一下关于“规则与模型”的问题。 大家肯定都知道,机器学习方法主要分两类,一类是基于统计的方法,比如贝叶斯、KNN等,都是对数据的某种特征进行归类计算得到数据划分的依据的;另一类是基于规则的方法,比如,语义规则,语法规则或者业务规则等等,这些规则主要是根据数... 阅读全文
摘要:
现有一个列表:list=["h","e","l","l","o"]需要将列表里的所有元素合并为一个字符串 “hello”,Python没有内置函数可以将列表的所有元素连接起来,类似于String的join函数。可以采用另一种方法 importitertools >>>s="".join(itert... 阅读全文
摘要:
列表 元组 字典 集合的区别是python面试中最常见的一个问题。这个问题虽然很基础,但确实能反映出面试者的基础水平。 (1)列表 什么是列表呢?我觉得列表就是我们日常生活中经常见到的清单。比如,统计过去一周我们买过的东西,把这些东西列出来,就是清单。由于我们买一种东西可能不止一次,所以清单中... 阅读全文
摘要:
算算时间,从开始到现在,做机器学习算法也将近八个月了。虽然还没有达到融会贯通的地步,但至少在熟悉了算法的流程后,我在算法的选择和创造能力上有了不小的提升。实话说,机器学习很难,非常难,要做到完全了解算法的流程、特点、实现方法,并在正确的数据面前选择正确的方法再进行优化得到最优效果,我觉得没有个... 阅读全文