PoeticalJustice

导航

上一页 1 2 3 4 5 6 ··· 14 下一页

2018年9月14日 #

week06 codelab01 react-router 去官网学习

摘要: 官方教程https://github.com/reactjs/react-router-tutorial git clone 到本地 和教程学 第一课 LESSON 2 index.js引入一些package 将上面的修改成 也就是 将app作为组件放到 router下 原理一会说 这样我们在地址栏 阅读全文

posted @ 2018-09-14 11:53 PoeticalJustice 阅读(118) 评论(0) 推荐(0) 编辑

2018年9月12日 #

ubuntu如何修改只读权限的文件?chmod a+w +文件名

摘要: RT 阅读全文

posted @ 2018-09-12 13:02 PoeticalJustice 阅读(989) 评论(0) 推荐(0) 编辑

2018年9月8日 #

如何切换pip的源

摘要: 参考别人的帖子https://blog.csdn.net/chenghuikai/article/details/55258957 阅读全文

posted @ 2018-09-08 16:55 PoeticalJustice 阅读(111) 评论(0) 推荐(0) 编辑

week0713.5 newspaper 安装问题

摘要: 然后爆红说nltk==2.0.5 太老了 所以我们 把包下载下来将requirements文件中nltk==2.0.5改成3.3.0 然后 将包打包 然后安装这个包就OK 下载newpaper 解压 修改配置文件 将这个包压缩 取个别名 安装这个新的包 安装成功 参考链接 https://githu 阅读全文

posted @ 2018-09-08 16:27 PoeticalJustice 阅读(140) 评论(0) 推荐(0) 编辑

2018年9月7日 #

week07 13.3 NewsPipeline之 三News Deduper之 tf_idf 查重

摘要: 我们运行看结果 安装包sklearn 安装numpy 安装scipy 终于可以啦 我们把安装的包都写在文件里面吧 4行4列 轴对称 只需要看一半就可以 横着看 竖着看都行 数值越接近1 表示越相似 我们通过这个可以将新的新闻(还未加入数据库的新闻)放在左上角 然后mongodb存的老新闻和他比较 如 阅读全文

posted @ 2018-09-07 15:00 PoeticalJustice 阅读(233) 评论(0) 推荐(0) 编辑

week07 13.4 NewsPipeline之 三 News Deduper

摘要: 还是循环将Q2中的东西拿出来 然后查重(去mongodb里面把一天之内的新闻都拿出来,然后把拿到的新的新闻和mongodb里一天内的新闻组一个 tf-idf的对比)可看13.3 相似度检查 如果超过一定的值 我就认为他是一个老的新闻 丢掉 不插入数据库 吐过相似度低于那个值 我们就认为他是新的新闻 阅读全文

posted @ 2018-09-07 14:32 PoeticalJustice 阅读(265) 评论(0) 推荐(0) 编辑

week07 13.2 NewsPipeline之 二 News Fetcher - Xpath

摘要: 我们使用Xpath来专门做一个scrapter 我们专门弄个文件夹 里面全部是 各个新闻源(CNN BBC等)的scraper来抓取网站的text内容 主要函数(就是传入text内容的那个url)然后进行抓取内容 返回 news 一会写具体内容 这个函数主要做3件事 首先 download 这个ur 阅读全文

posted @ 2018-09-07 14:26 PoeticalJustice 阅读(165) 评论(0) 推荐(0) 编辑

2018年9月6日 #

week07 13.1 NewsPipeline之 一 NewsMonitor

摘要: 我们要重构一下代码 因为我们之前写了utils 我们的NewsPipeline部分也要用到 所以我们把他们单独独立得拿出来 删掉原来的 将requirements。txt也拿出去 现在我们搬家完成 我们修改一下我们backend里面依赖这些的文件 service。py 不在是同级目录下 而是在父一级 阅读全文

posted @ 2018-09-06 17:49 PoeticalJustice 阅读(234) 评论(0) 推荐(0) 编辑

week06 12 我们准备数据 前端调用rpc 前后端联调一下

摘要: 用postman发送请求 出现一个问题 我在return结果前 要将数据转换成字典 所以我们用json.dumps()后再json.load()回来 这样就避免了这个问题 因为数据结构的数据 比如link list等 他们在传输的过程 只传递数据 结构是不传的 我们怎么将树状结构的数据原本的样子进行 阅读全文

posted @ 2018-09-06 15:43 PoeticalJustice 阅读(386) 评论(0) 推荐(0) 编辑

2018年9月4日 #

week06 12 后端utils cloudAMQP_client.py 安装pika

摘要: 我们回到后端 pika是专门处理RabitAMQP的包 或者你可以直接一步到位 我们不能一直让我们的网络爬虫一直爬信息 一是网络消耗很大(cpu) 二是容易被网站发现被禁ip self.connection.sleep(seconds)可以保证程序sleep而且链接不断 为何我们不让整个爬虫都执行这 阅读全文

posted @ 2018-09-04 18:30 PoeticalJustice 阅读(133) 评论(0) 推荐(0) 编辑

上一页 1 2 3 4 5 6 ··· 14 下一页