摘要: 绪论 文本摘要自动抽取是文本信息抽取的主要任务之一,也是自然语言处理 NLP(Nature Language Process)领域的主要研究方向,它是指利用计算机自动从文本中抽取重要信息,形成摘要的方式表达原文。根据对信息的抽取方式的不同,可将文本自动摘要抽取技术分为两大类:抽取式(extracti 阅读全文
posted @ 2019-01-23 09:34 仔仔ji 阅读(1152) 评论(0) 推荐(0) 编辑
摘要: 意义 网络新闻往往含有丰富的语义,一篇文章既可以属于“经济”也可以属于“文化”。给网络新闻打多标签可以更好地反应文章的真实意义,方便日后的分类和使用。 难点 (1)类标数量不确定,有些样本可能只有一个类标,有些样本的类标可能高达几十甚至上百个。 (2)类标之间相互依赖,例如包含蓝天类标的样本很大概率 阅读全文
posted @ 2018-12-01 15:22 仔仔ji 阅读(78338) 评论(1) 推荐(2) 编辑
摘要: 因有需求需要改动centos7中的CUDA(更新到10)和GUP 的driver(更新到410)的版本。 事先需要查看原版本的信息,使用nvidia-smi可以查看driver的版本信息(最新的也显示CUDA的版本信息);使用nvcc –version查看CUDA的信息。 服务器的基本配置是:CUD 阅读全文
posted @ 2018-11-01 11:42 仔仔ji 阅读(6212) 评论(0) 推荐(0) 编辑
摘要: Docker是一种 操作系统层面的虚拟化技术,类似于传统的虚拟机。传统虚拟机技术是虚拟出一套硬件后,在其上运行一个完整操作系统,在该系统上再运行所需应用进程;而容器内的应用进程直接运行于宿主的内核,容器内没有自己的内核,而且也没有进行硬件虚拟。因此容器要比传统虚拟机更为轻便。传统虚拟机使用前需要指定 阅读全文
posted @ 2018-10-23 16:35 仔仔ji 阅读(2410) 评论(0) 推荐(0) 编辑
摘要: 领域词典的搬运工 现有的可获得领域词典(可免费下载) 1千万级巨型汉语词库 2THUOCL:清华大学开放中文词库 3搜狗词典 4百度输入词典 5QQ输入法词典 (ps:此链接包含三个常见输入法的词典和提取工具) 现有领域词典的优缺点 千万级巨型汉语词库 此版本的词典包含的领域词具有种类多、覆盖范围广 阅读全文
posted @ 2018-10-19 14:32 仔仔ji 阅读(2399) 评论(0) 推荐(0) 编辑
摘要: 十一之前一直在做“电力领域的词典构建”任务,今天也去聆听了前五支队伍的报告,现结合这段时间来的项目经历,写一下自己的若干心得。 电力领域的词典构建——方法1(非监督学习) 在电力领域词典构建心得1.0中介绍到我们的非监督方法思路主要是:爬取CNKI中关于电力的文献的摘要并提取每一个摘要的关键词,然后 阅读全文
posted @ 2018-10-12 16:14 仔仔ji 阅读(2136) 评论(5) 推荐(0) 编辑
摘要: 电商平台上有大量的商品评价,如何利用这些商品评价为数据用户(主要是:电商平台,商家)做改进是这次的研究主题。不幸的是,数据不多,以至于最后还要自己亲自操刀,亲自爬取……让人高兴的是,这次的爬虫经历,让自己的能力进步了一些,欣喜若狂!废话不多说,这就开始叙述自己经历的这个项目。一开始解除这个项目,考虑 阅读全文
posted @ 2018-10-04 10:59 仔仔ji 阅读(453) 评论(0) 推荐(0) 编辑
摘要: 开始今天的正式写作之前不得不吐槽一下联想电脑,真的是很垃圾!联想Z485使用的是AMD的处理器,性能差的很,更让人不能忍的是,居然不能正常安装64位ubantu。这个情况让那些想在自己笔记电脑上安装TensorFlow的人头都大了一圈……我也是摸索了很久才使得自己的电脑成功的安装上64位ubantu 阅读全文
posted @ 2018-10-04 10:35 仔仔ji 阅读(676) 评论(0) 推荐(0) 编辑
摘要: Python中可以用来爬取网络数据的库有很多,常见的有:urllib、urllib2、urllib3、requests、scrapy、selenium等。 基本上可以分为3类: 第一类:urllib、urllib2、urllib3、requests; 第二类:scrapy; 第三类:selenium 阅读全文
posted @ 2018-10-03 18:05 仔仔ji 阅读(245) 评论(0) 推荐(0) 编辑
摘要: 前段时间做商品评价的语义分析,需要大量的电商数据,于是乎就自己动手爬取京东的数据。第一次接触爬虫是使用selenium爬取CNKI的摘要,基于惯性思维的我仍然想用selenium+Firefox的方法爬取京东上的数据。代码就这样以selenium为框架写好了,但是效果一如既往的差,主要是耗时真的是太 阅读全文
posted @ 2018-10-03 17:50 仔仔ji 阅读(6895) 评论(0) 推荐(3) 编辑