2019年3月17日

摘要: 关键词提取,自然语言理解,词语相似度,识别标题党 阅读全文
posted @ 2019-03-17 22:08 佛大老妖 阅读(2668) 评论(0) 推荐(0) 编辑

2019年3月11日

摘要: 首先附上源码: 这个项目中用到了自己编写的代理ip池代码,将会在下面附上。 首先说一下遇到的错误,在选择登录豆瓣的时候,多次密码错误,因为误把其他网站密码写上去了,然后刚开始还找不到这个路径,因为所属的class有多个空格,需要使用css或者其他方法。 第一种方法:class值取其中之一,但是我觉得 阅读全文
posted @ 2019-03-11 11:47 佛大老妖 阅读(296) 评论(0) 推荐(0) 编辑

2019年3月10日

摘要: 学习了一篇别人的文章之后,知道了怎么生成词云,于是在原来代码的基础上添加了生成词云的程序 阅读全文
posted @ 2019-03-10 18:25 佛大老妖 阅读(272) 评论(0) 推荐(0) 编辑

2019年3月5日

摘要: 总的来说,爬取豆瓣信息不算难,因为在网上一抓一大把教程,但是自己写的代码还是和别人的不一样,特别是自己一个一个想出来一个一个敲出来的那种酸爽赶脚 阅读全文
posted @ 2019-03-05 10:03 佛大老妖 阅读(392) 评论(0) 推荐(0) 编辑
摘要: 本人以前爬取过链家网的房价信息,所以爬取佛山的房价本应该是一件很简单的事情,但是在第31页遇到了隐藏代码,也就是style=display:none,隐藏了本应该有的下一页按钮,导致无法进入下一页 阅读全文
posted @ 2019-03-05 09:55 佛大老妖 阅读(253) 评论(0) 推荐(0) 编辑

2019年3月3日

摘要: 为了更好地学习《自然语言处理》这一门课,我们的老师叫我们组团去刷学校官网,我刚开始还以为很简单,事实证明,我错了,固执的凭借xpath去解析内容非常的难,还有我最后用bs4轻松解析,这个项目让我看清了xpath适合提取单个标签内的内容,而bs4明显适合去提取大段的内容,然后再通过join,strip 阅读全文
posted @ 2019-03-03 17:19 佛大老妖 阅读(321) 评论(0) 推荐(0) 编辑

2019年2月26日

摘要: 经验: 1.猫眼的网页版只显示极少数热门短评,只有在APP端才能看到所有评论,所以笔者所用的url ='http://m.maoyan.com/mmdb/comments/movie/1235560.json?_v_=yes&offset='+ str(i*15)就是在网上看到别人用的,可以记一下, 阅读全文
posted @ 2019-02-26 10:26 佛大老妖 阅读(211) 评论(0) 推荐(0) 编辑

2019年2月25日

摘要: 笔者最近在看scrapy爬虫实战,在scrapy入门案例中遇到了许多问题,特别是在scrapy中使用css和xpath,遇到实际应用无法实现,只能做到基础的功能 于是笔者摆脱scrapy框架,按照requests这些基础知识来重做项目,发现运行速度远远低于scrapy框架! 下面是代码,代码也存在较 阅读全文
posted @ 2019-02-25 23:37 佛大老妖 阅读(192) 评论(0) 推荐(0) 编辑

2019年2月24日

摘要: 1、创建一个scrapy的开发环境 下载scrapy,但是由于pip版本等问题,所以没有最终成功,但是更改pycharm中的环境,使用anaconda就可以了,因为包含了scrapy环境! 2、使用 scrapy 来创建 ArticleSpider项目 打开cmd界面,输入scrapy startp 阅读全文
posted @ 2019-02-24 12:08 佛大老妖 阅读(149) 评论(0) 推荐(0) 编辑

2019年2月23日

摘要: ''' selenium操作主要分两大类: -得到UI元素 -find_element_by_id -find_elements_by_name -find_elements_by_xpath -find_elements_by_link_text -find_elements_by_tag_name -find_elements_by_class_name -基于UI元... 阅读全文
posted @ 2019-02-23 20:33 佛大老妖 阅读(368) 评论(0) 推荐(0) 编辑

导航