2017年11月13日

python中文分词,使用结巴分词对python进行分词

摘要: 在采集美女站时,需要对关键词进行分词,最终采用的是python的结巴分词方法. 中文分词是中文文本处理的一个基础性工作,结巴分词利用进行中文分词。其基本实现原理有三点: 安装(Linux环境) 下载工具包,解压后进入目录下,运行:python setup.py install 模式 接口 组件只提供 阅读全文

posted @ 2017-11-13 23:16 yangjiyue 阅读(14259) 评论(0) 推荐(0) 编辑

2017年11月12日

教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神

摘要: Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。 Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSp 阅读全文

posted @ 2017-11-12 15:39 yangjiyue 阅读(2698) 评论(0) 推荐(1) 编辑

2017年11月11日

Python3爬虫视频学习教程

摘要: 下面是转发博客内容,挺有用的 大家好哈,现在呢静觅博客已经两年多啦,可能大家过来更多看到的是爬虫方面的博文,首先非常感谢大家的支持,希望我的博文对大家有帮助! 之前我写了一些Python爬虫方面的文章,Python爬虫学习系列教程,涉及到了基础和进阶的一些内容,当时更多用到的是Urllib还有正则, 阅读全文

posted @ 2017-11-11 21:33 yangjiyue 阅读(2779) 评论(1) 推荐(0) 编辑

2017年11月10日

Python采集实例2

摘要: 上一篇说道我们要采集http://www.gg4493.cn/的数据,接下来: 步骤2:对于每一个链接,获取它的网页内容。 很简单,只需要打开urls.txt文件,一行一行地读出来就可以了。也许这里会显得多此一举,但是基于我对解耦的强烈愿望,我还是果断地写到文件里了。后面如果采用面向对象编程,重构起 阅读全文

posted @ 2017-11-10 09:59 yangjiyue 阅读(561) 评论(0) 推荐(0) 编辑

2017年11月9日

Python采集实例1

摘要: 目标是把http://www.gg4493.cn/主页上所有数据爬取下来,获得每一篇新闻的名称、时间、来源以及正文。接下来分解目标,一步一步地做。步骤1:将主页上所有链接爬取出来,写到文件里。python在获取html方面十分方便,寥寥数行代码就可以实现我们需要的功能。复制代码代码如下:def ge 阅读全文

posted @ 2017-11-09 15:30 yangjiyue 阅读(486) 评论(0) 推荐(0) 编辑

2017年11月6日

Python3做采集

摘要: 出于某些目的,需要在网上爬一些数据。考虑到Python有各种各样的库,以前想试试Pycharm这个IDE,就决定用它了。首先翻完《深入Python3》这本书,了解了它的语法之类的。下面就以下载http://www.meinv68.com/为例子开始干活了: 采集的有点慢。需要采集的数据有三十多万条。 阅读全文

posted @ 2017-11-06 09:05 yangjiyue 阅读(2490) 评论(0) 推荐(0) 编辑

2017年11月3日

python采集第一步

摘要: 上次说要做一个http://www.m4493.cn/的美女站点,需要使用python进行数据采集 接下来我们就开始采集数据了,使用pythn采集第一步 安装python 这个简单,直接到python官方网站下载python,我这里下载的是2,7.3版本 (找时间把安装过程放出来) 然后安装pip 阅读全文

posted @ 2017-11-03 16:31 yangjiyue 阅读(747) 评论(0) 推荐(0) 编辑

2017年11月2日

使用python进行数据的采集

摘要: 搞了十多年的程序,最近转行做网站,经过一番的调查研究,最终选择了美女图片站http://www.gg4493.cn.。 这就带来了一个问题,必须要到网站各大美女站点进行图片采集,之前都是采用java进行数据采集,每次都要分析html,写n多的代码,听说python的采集功能很强,因此我特意简单学习了 阅读全文

posted @ 2017-11-02 12:48 yangjiyue 阅读(4604) 评论(0) 推荐(0) 编辑

android使用webview时按后退退出的问题

摘要: 使用webview打包图片站点http://www.gg4493.cn,代码都好了,具体如下 一切貌似很完美,玩游戏,被电脑打败了,点击“更多游戏”去查看其他游戏,然后点返回键,问题来了,不是挖掘技术哪家强,是webview没有后退功能,没法退回首页,而是直接退出,android开发问题还真多啊,还 阅读全文

posted @ 2017-11-02 12:45 yangjiyue 阅读(5125) 评论(0) 推荐(0) 编辑

2017年10月31日

android使用web加载网页的js问题

摘要: android好久没有用了,用它来打包个html5游戏,代码如下 使用时发现所有的js都无法使用来,找来半天终于知道问题在哪里了,使用webview默认是吧js关闭的,因此是不会执行js代码的,这个时候只需要加上一句话就够了 是的,这句话就够了,true表示支持js false表示不支持js,默认是 阅读全文

posted @ 2017-10-31 17:16 yangjiyue 阅读(302) 评论(0) 推荐(0) 编辑

导航