佛大老妖

摘要：关键词提取，自然语言理解，词语相似度，识别标题党阅读全文

posted @ 2019-03-17 22:08 佛大老妖阅读(2668) 评论(0) 推荐(0) 编辑

摘要：首先附上源码：这个项目中用到了自己编写的代理ip池代码，将会在下面附上。首先说一下遇到的错误，在选择登录豆瓣的时候，多次密码错误，因为误把其他网站密码写上去了，然后刚开始还找不到这个路径，因为所属的class有多个空格，需要使用css或者其他方法。第一种方法：class值取其中之一，但是我觉得阅读全文

posted @ 2019-03-11 11:47 佛大老妖阅读(296) 评论(0) 推荐(0) 编辑

爬取学校官网新闻-生成词云

摘要：学习了一篇别人的文章之后，知道了怎么生成词云，于是在原来代码的基础上添加了生成词云的程序阅读全文

posted @ 2019-03-10 18:25 佛大老妖阅读(272) 评论(0) 推荐(0) 编辑

豆瓣最佳影评-星级转换

摘要：总的来说，爬取豆瓣信息不算难，因为在网上一抓一大把教程，但是自己写的代码还是和别人的不一样，特别是自己一个一个想出来一个一个敲出来的那种酸爽赶脚阅读全文

posted @ 2019-03-05 10:03 佛大老妖阅读(392) 评论(0) 推荐(0) 编辑

佛山链家-bs修改网页代码难题-待突破

摘要：本人以前爬取过链家网的房价信息，所以爬取佛山的房价本应该是一件很简单的事情，但是在第31页遇到了隐藏代码，也就是style=display:none，隐藏了本应该有的下一页按钮，导致无法进入下一页阅读全文

posted @ 2019-03-05 09:55 佛大老妖阅读(253) 评论(0) 推荐(0) 编辑

爬取学校官网新闻-bs与xpath的恩怨情仇

摘要：为了更好地学习《自然语言处理》这一门课，我们的老师叫我们组团去刷学校官网，我刚开始还以为很简单，事实证明，我错了，固执的凭借xpath去解析内容非常的难，还有我最后用bs4轻松解析，这个项目让我看清了xpath适合提取单个标签内的内容，而bs4明显适合去提取大段的内容，然后再通过join,strip 阅读全文

posted @ 2019-03-03 17:19 佛大老妖阅读(321) 评论(0) 推荐(0) 编辑

猫眼电影评论（1366错误）-版本一

摘要：经验： 1.猫眼的网页版只显示极少数热门短评，只有在APP端才能看到所有评论，所以笔者所用的url ='http://m.maoyan.com/mmdb/comments/movie/1235560.json?_v_=yes&offset='+ str(i*15)就是在网上看到别人用的，可以记一下，阅读全文

posted @ 2019-02-26 10:26 佛大老妖阅读(211) 评论(0) 推荐(0) 编辑

books新手实践xpath

摘要：笔者最近在看scrapy爬虫实战，在scrapy入门案例中遇到了许多问题，特别是在scrapy中使用css和xpath，遇到实际应用无法实现，只能做到基础的功能于是笔者摆脱scrapy框架，按照requests这些基础知识来重做项目，发现运行速度远远低于scrapy框架！下面是代码，代码也存在较阅读全文

posted @ 2019-02-25 23:37 佛大老妖阅读(192) 评论(0) 推荐(0) 编辑

scrapy项目入门--shell的使用！

摘要： 1、创建一个scrapy的开发环境下载scrapy，但是由于pip版本等问题，所以没有最终成功，但是更改pycharm中的环境，使用anaconda就可以了，因为包含了scrapy环境！ 2、使用 scrapy 来创建 ArticleSpider项目打开cmd界面，输入scrapy startp 阅读全文

posted @ 2019-02-24 12:08 佛大老妖阅读(149) 评论(0) 推荐(0) 编辑

selenium模拟浏览器进行百度搜索

摘要： ''' selenium操作主要分两大类： -得到UI元素 -find_element_by_id -find_elements_by_name -find_elements_by_xpath -find_elements_by_link_text -find_elements_by_tag_name -find_elements_by_class_name -基于UI元... 阅读全文

posted @ 2019-02-23 20:33 佛大老妖阅读(368) 评论(0) 推荐(0) 编辑

导航

公告