随笔分类 - 演化/智能算法
摘要:浅识网页正文提取算法 因为要到一家互联网公司参加自然语言处理实习生面试,对于岗位要求中提到的工作内容--"网页正文内容提取"的相关知识进行了一下突击。重点看了一下网页正文提取所涉及到的各种算法,网上的内容很多,我只是看了其中一小部分,对各类算法做了一个简单的了解,不敢说对其做一个综述,只是以一个学习者的学习习惯来记录我对网页正文提取算法的浅认识,本文并不会对算法进行详细的步骤讲解,只提思路和思想。 为什么要进行正文提取? 对于一个单独的网页,往往最有价值的部分是网页的正文。然而就现在的大多数的网站的网页而言,不仅仅包含正文,网页标签等,其他的如广告,网页链接,插件等占据了网
阅读全文
摘要:基于遗传算法的TSP问题求解(C) TSP问题: TSP(Travelling salesman problem): 译作“旅行商问题”, 一个商人由于业务的需要,要到n个城市,每个城市之间都有一条路径和其他所有的城市相连。现在要求从一个城市出发,穿越所有其他所有的城市,再回到出发的城市。 出于成本的考虑,要求商人走的路径的长短最短。问能否找到这样的一条路径? 这是个经典的NP-complete问题。 时间复杂度为θ(n!)。 随着城市的数量规模增大,在有限的时间内得不到问题的最优解。 我们只能退而求其次,在有限的时间内(或可接受的时间内)找到一个近似最优解,而且这个近似最优解和最优解的...
阅读全文