摘要:
软件架构实践在一到三章讲述了一些概念内容以及实例,比如什么是架构,架构的重要性和评判架构的准则等等。同样,作为书的第一部分,它介绍了架构的商业周期,是分析软件架构的基础。而第二部分讲述的就是设计师如何创建构架。概括的说,因为质量属性的实现对系统的成功至关重要,因此我们开始对质量属性以及设计师如何借助 阅读全文
摘要:
今天了解一下什么是热词分析 例如今日头条: 能够将点击量最多的信息推送到顶部,方便观看。 python趴取热词 下面是一个小列子: 百度新闻页面(http://news.baidu.com/)上的百度热搜词部分的html是这个样子的 <a href="http://news.baidu.com/ns 阅读全文
摘要:
python编程中的细节 NameError:尝试访问一个未声明的变量 NameError 表示我们访问了一个没有初始化的变量. 在 Python 解释器的符号表没有找到那个另人讨厌的变量. 我们将在后面的两章讨论名称空间, 现在大家可以认为它们是连接名字和对象的”地址簿”就可以了. 任何可访问的变 阅读全文
摘要:
今天主要看了林子雨老师的spark基础和scala基础。 基本学会了scala基本语法和spark的简单使用,与scala的结合。 并且观看了一些教学视频资料。 阅读全文
摘要:
使用python将爬取数据放在表格里面 阅读全文
摘要:
本次阅读我阅读了前三章,众所周知,软件体系架构如大众的观点一致:需求在架构之前。即传统的思想:在知道了系统的需求,就可以为此系统构建构架。而紧接着,书中使用了经典的“瑞典的瓦萨战舰”以证明这种观点的缺乏远见——不能真正揭示出架构的重要价值。 “瑞典的瓦萨战舰”讲的是一个违背当时技术水平建造的战舰,这 阅读全文
摘要:
功能要求为:1,数据采集,定期从网络中爬取信息领域的相关热词 2,数据清洗:对热词信息进行数据清洗,并采用自动分类技术生成自动分类计数生成信息领域热词目录。 3,热词解释:针对每个热词名词自动添加中文解释(参照百度百科或维基百科) 4,热词引用:并对近期引用热词的文章或新闻进行标记,生成超链接目录, 阅读全文
摘要:
不管是正常的爬虫还是恶意爬虫,不仅会导致网站信息泄露,而且还会导致服务器压力过大。想象一下,一台计算机模拟人工请求访问服务器,并且与以计算机的速度与服务器进行交互,势必会导致服务器压力过大或者瘫痪。所以,很多正规的大型网站不想让网络爬虫爬取数据,设置了反爬虫机制。最常见的就是user-agent,简 阅读全文