yangjiyue

python中文分词，使用结巴分词对python进行分词

摘要：在采集美女站时,需要对关键词进行分词,最终采用的是python的结巴分词方法. 中文分词是中文文本处理的一个基础性工作，结巴分词利用进行中文分词。其基本实现原理有三点：安装（Linux环境）下载工具包，解压后进入目录下，运行：python setup.py install 模式接口组件只提供阅读全文

posted @ 2017-11-13 23:16 yangjiyue 阅读(14259) 评论(0) 推荐(0) 编辑

教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神

摘要： Scrapy，Python开发的一个快速,高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。 Scrapy吸引人的地方在于它是一个框架，任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类，如BaseSp 阅读全文

posted @ 2017-11-12 15:39 yangjiyue 阅读(2698) 评论(0) 推荐(1) 编辑

Python3爬虫视频学习教程

摘要：下面是转发博客内容，挺有用的大家好哈，现在呢静觅博客已经两年多啦，可能大家过来更多看到的是爬虫方面的博文，首先非常感谢大家的支持，希望我的博文对大家有帮助！之前我写了一些Python爬虫方面的文章，Python爬虫学习系列教程，涉及到了基础和进阶的一些内容，当时更多用到的是Urllib还有正则，阅读全文

posted @ 2017-11-11 21:33 yangjiyue 阅读(2779) 评论(1) 推荐(0) 编辑

Python采集实例2

摘要：上一篇说道我们要采集http://www.gg4493.cn/的数据，接下来：步骤2：对于每一个链接，获取它的网页内容。很简单，只需要打开urls.txt文件，一行一行地读出来就可以了。也许这里会显得多此一举，但是基于我对解耦的强烈愿望，我还是果断地写到文件里了。后面如果采用面向对象编程，重构起阅读全文

posted @ 2017-11-10 09:59 yangjiyue 阅读(561) 评论(0) 推荐(0) 编辑

Python采集实例1

摘要：目标是把http://www.gg4493.cn/主页上所有数据爬取下来，获得每一篇新闻的名称、时间、来源以及正文。接下来分解目标，一步一步地做。步骤1：将主页上所有链接爬取出来，写到文件里。python在获取html方面十分方便，寥寥数行代码就可以实现我们需要的功能。复制代码代码如下:def ge 阅读全文

posted @ 2017-11-09 15:30 yangjiyue 阅读(486) 评论(0) 推荐(0) 编辑

Python3做采集

摘要：出于某些目的，需要在网上爬一些数据。考虑到Python有各种各样的库，以前想试试Pycharm这个IDE，就决定用它了。首先翻完《深入Python3》这本书，了解了它的语法之类的。下面就以下载http://www.meinv68.com/为例子开始干活了：采集的有点慢。需要采集的数据有三十多万条。阅读全文

posted @ 2017-11-06 09:05 yangjiyue 阅读(2490) 评论(0) 推荐(0) 编辑

python采集第一步

摘要：上次说要做一个http://www.m4493.cn/的美女站点，需要使用python进行数据采集接下来我们就开始采集数据了，使用pythn采集第一步安装python 这个简单，直接到python官方网站下载python，我这里下载的是2,7.3版本（找时间把安装过程放出来）然后安装pip 阅读全文

posted @ 2017-11-03 16:31 yangjiyue 阅读(747) 评论(0) 推荐(0) 编辑

使用python进行数据的采集

摘要：搞了十多年的程序，最近转行做网站，经过一番的调查研究，最终选择了美女图片站http://www.gg4493.cn.。这就带来了一个问题，必须要到网站各大美女站点进行图片采集，之前都是采用java进行数据采集，每次都要分析html，写n多的代码，听说python的采集功能很强，因此我特意简单学习了阅读全文

posted @ 2017-11-02 12:48 yangjiyue 阅读(4604) 评论(0) 推荐(0) 编辑

android使用webview时按后退退出的问题

摘要：使用webview打包图片站点http://www.gg4493.cn，代码都好了，具体如下一切貌似很完美，玩游戏，被电脑打败了，点击“更多游戏”去查看其他游戏，然后点返回键，问题来了，不是挖掘技术哪家强，是webview没有后退功能，没法退回首页，而是直接退出，android开发问题还真多啊，还阅读全文

posted @ 2017-11-02 12:45 yangjiyue 阅读(5125) 评论(0) 推荐(0) 编辑

android使用web加载网页的js问题

摘要： android好久没有用了，用它来打包个html5游戏，代码如下使用时发现所有的js都无法使用来，找来半天终于知道问题在哪里了，使用webview默认是吧js关闭的，因此是不会执行js代码的，这个时候只需要加上一句话就够了是的，这句话就够了，true表示支持js false表示不支持js，默认是阅读全文

posted @ 2017-10-31 17:16 yangjiyue 阅读(302) 评论(0) 推荐(0) 编辑