PoeticalJustice

week06 codelab01 react-router 去官网学习

摘要：官方教程https://github.com/reactjs/react-router-tutorial git clone 到本地和教程学第一课 LESSON 2 index.js引入一些package 将上面的修改成也就是将app作为组件放到 router下原理一会说这样我们在地址栏阅读全文

posted @ 2018-09-14 11:53 PoeticalJustice 阅读(118) 评论(0) 推荐(0) 编辑

ubuntu如何修改只读权限的文件？chmod a+w +文件名

摘要： RT 阅读全文

posted @ 2018-09-12 13:02 PoeticalJustice 阅读(997) 评论(0) 推荐(0) 编辑

如何切换pip的源

摘要：参考别人的帖子https://blog.csdn.net/chenghuikai/article/details/55258957 阅读全文

posted @ 2018-09-08 16:55 PoeticalJustice 阅读(111) 评论(0) 推荐(0) 编辑

week0713.5 newspaper 安装问题

摘要：然后爆红说nltk==2.0.5 太老了所以我们把包下载下来将requirements文件中nltk==2.0.5改成3.3.0 然后将包打包然后安装这个包就OK 下载newpaper 解压修改配置文件将这个包压缩取个别名安装这个新的包安装成功参考链接 https://githu 阅读全文

posted @ 2018-09-08 16:27 PoeticalJustice 阅读(141) 评论(0) 推荐(0) 编辑

week07 13.3 NewsPipeline之三News Deduper之 tf_idf 查重

摘要：我们运行看结果安装包sklearn 安装numpy 安装scipy 终于可以啦我们把安装的包都写在文件里面吧 4行4列轴对称只需要看一半就可以横着看竖着看都行数值越接近1 表示越相似我们通过这个可以将新的新闻（还未加入数据库的新闻）放在左上角然后mongodb存的老新闻和他比较如阅读全文

posted @ 2018-09-07 15:00 PoeticalJustice 阅读(234) 评论(0) 推荐(0) 编辑

week07 13.4 NewsPipeline之三 News Deduper

摘要：还是循环将Q2中的东西拿出来然后查重（去mongodb里面把一天之内的新闻都拿出来，然后把拿到的新的新闻和mongodb里一天内的新闻组一个 tf-idf的对比）可看13.3 相似度检查如果超过一定的值我就认为他是一个老的新闻丢掉不插入数据库吐过相似度低于那个值我们就认为他是新的新闻阅读全文

posted @ 2018-09-07 14:32 PoeticalJustice 阅读(268) 评论(0) 推荐(0) 编辑

week07 13.2 NewsPipeline之二 News Fetcher - Xpath

摘要：我们使用Xpath来专门做一个scrapter 我们专门弄个文件夹里面全部是各个新闻源（CNN BBC等）的scraper来抓取网站的text内容主要函数（就是传入text内容的那个url）然后进行抓取内容返回 news 一会写具体内容这个函数主要做3件事首先 download 这个ur 阅读全文

posted @ 2018-09-07 14:26 PoeticalJustice 阅读(166) 评论(0) 推荐(0) 编辑

week07 13.1 NewsPipeline之一 NewsMonitor

摘要：我们要重构一下代码因为我们之前写了utils 我们的NewsPipeline部分也要用到所以我们把他们单独独立得拿出来删掉原来的将requirements。txt也拿出去现在我们搬家完成我们修改一下我们backend里面依赖这些的文件 service。py 不在是同级目录下而是在父一级阅读全文

posted @ 2018-09-06 17:49 PoeticalJustice 阅读(236) 评论(0) 推荐(0) 编辑

week06 12 我们准备数据前端调用rpc 前后端联调一下

摘要：用postman发送请求出现一个问题我在return结果前要将数据转换成字典所以我们用json.dumps()后再json.load()回来这样就避免了这个问题因为数据结构的数据比如link list等他们在传输的过程只传递数据结构是不传的我们怎么将树状结构的数据原本的样子进行阅读全文

posted @ 2018-09-06 15:43 PoeticalJustice 阅读(387) 评论(0) 推荐(0) 编辑

week06 12 后端utils cloudAMQP_client.py 安装pika

摘要：我们回到后端 pika是专门处理RabitAMQP的包或者你可以直接一步到位我们不能一直让我们的网络爬虫一直爬信息一是网络消耗很大（cpu）二是容易被网站发现被禁ip self.connection.sleep(seconds)可以保证程序sleep而且链接不断为何我们不让整个爬虫都执行这阅读全文

posted @ 2018-09-04 18:30 PoeticalJustice 阅读(136) 评论(0) 推荐(0) 编辑

导航

公告