摘要:
今天算是忙活这几天以来的第一次实际应用到生产。感觉不错:爬虫无人看守自动爬取了5939条数据。把过程和收获写下来。 xpath方法 selenium的核心就是网页元素的选取,这是前提。它所提供的方法功能强大,可是我不太会用,一个上午都在测试元素选取方法,可能也因不同网页而异。今天我就是被这个网页给坑 阅读全文
摘要:
背景介绍:win7 64bit - selenium 3.8.1 - firefox 56 32bit - geckodriver.exe 0.19.0利用上述软件经一下午调试终于成功利用Firefox浏览器打开搜索selenium。(太菜了) 安装过程 selenium 直接利用pip insta 阅读全文
摘要:
搜索到的配置phantomjs环境变量的文章对这一步都是一笔带过,可把我难住了。现在自己写一下过程。 下载phantomjs 推荐从淘宝镜像下载:phantomjs 2.1.1-windows.zip解压后,如下图操作:解压到D:\phantomjs\下。右击计算机(win7)-属性-高级-环境变量 阅读全文
摘要:
目前总的来说是失败了。原因可能是因为豆瓣验证码的问题,因为我看不到登录时候的界面,所以没法分析验证码的链接。(我用自己的浏览器登录都是默认不要验证码的,这就尴尬了),所以登录不上,后面的post也就没有意义了。把代码贴出来。 # -*- coding: utf-8 -*- """ Created o 阅读全文
摘要:
想做个利用Python发布豆瓣“说句话”的工具,目前我已知的有两种方法: 用Python驱动一些无界面浏览器phantomjs(因为我没用Chrome),直接模拟发状态的行为。 按F12分析网页发布动态的js行为,直接在Python中post。 对比两种方法,第一种需要安装phantomjs,但是普 阅读全文
摘要:
遇到个小问题: 我将十本书的[书名列表]赋值给字典的title键值,将[作者列表]赋值给‘author’键值。现在想一个书名,一个作者的输出。使用嵌套循环遍历一共得到了10*10=100次书名和作者(笑)。 for ti,au in dic[‘title’],dic[‘author’]: 这是我下意 阅读全文
摘要:
Anaconda3里边自带了bs4的包,省的我自己安装了。 最近觉得模块化的写法可以让代码变得清晰易读。而且随着代码的增多,找bug也会更方便。(目前我还写不出这么多)而且模块化有种工具化的思想,拿来主义的思想在里面,使用工具可是人等少数智慧动物的专利啊。之后也要多学习使用[try - except 阅读全文
摘要:
我用的是Anaconda 32bit。因此直接打开Anaconda Prompt 安装:直接输入 使用:使用的时候建议拷贝一份自己的代码,放在新建的一个文件夹中,比如F:\exp\text.py 输入如下指令 常用的指令有 -F:生成单个text.exe -w:无窗口化 -i:加上自己的xx.ico 阅读全文
摘要:
我记得自己在高中的时候,用Nokia的小手机,在一个wap网站里面自己写一些“代码”。现在才知道,那时候写的就是脚本语言。 个人见解: 脚本语言就像x梦那个软件一样,写HTML代码的那谁,其实不用写,就像一篇Word一样编辑,后台就会自动生成一个index.htm。这个软件和Python给我的感觉一 阅读全文
摘要:
最近接到个小任务,需要从下图这样的信息中找出社区、行政村并且分类。事后我计算了一下,只是行政村就有500+,这样的重复性劳动果断选择Python来执行。 为了方便其他和我遇到同样问题的人,我用pyinstaller将这个程序打包了。根据以往经验,在win7 32位电脑上是可以运行的。 使用起来需要注 阅读全文