随笔分类 - Python
摘要:经常会遇到一些类似问题 Traceback (most recent call last): File "d:/HAO_VSCcode/HAO_Spider_Test.py", line 15, in <module> from pyquery import PyQuery as pq Module
阅读全文
摘要:vscode为python文件添加模板 修改File-Preferences-User Snippets-python.json文件。 有其它添加内容,参考 Creating your own snippets 使用时,新建一个文件后,手动输入‘py’,会自动生成上述的模板。 { // Place
阅读全文
摘要:使用Python操作MySQL,需要批量获取上万条数据,并把结果返回写入文件; 遇到问题:'Too large to show contents. Max items to show: 300' 解决办法如下: 在pycharm中debug时,如果len(list)>300,会提示too long
阅读全文
摘要:一些Python面试题 注:本面试题来源于网络,部分内容摘自http://www.cnblogs.com/goodhacker/p/3366618.html 1. (1)python下多线程的限制以及多进程中传递参数的方式 python多线程有个全局解释器锁(global interpreter l
阅读全文
摘要:在Pycharm中导入包的时候,会存在报错问题: Unresolved reference 'InsecureRequestWarning' less... (Ctrl+F1) Inspection info: This inspection detects names that should re
阅读全文
摘要:在介绍具体的实现python发邮件的具体操作之前,我觉得有必要介绍下SMTP,更有助于理解python发邮件的实现原理。SMTP协议属于TCP/IP协议簇,即简单邮件传输协议,它是一组用于由源地址到目的地址传送邮件的规则,由它来控制信件的中转方式,python实现发邮件也是基于此基础上进行封装的。
阅读全文
摘要:Python的一些小参考站点: intermediate python廖雪峰的python教程IBM开源资料社区pythontips
阅读全文
摘要:Python中Debug有很多种方式,比如直接用ide去 pydebug,或者命令行去debug。这里介绍Python调试代码的4种方法:print、log、pdb、PyCharm的debug,分别有什么优缺点。 一.使用ide debug 使用ide的方式比较简单,基本就是Shift + F9、F
阅读全文
摘要:with如何工作?
阅读全文
摘要:背景 对于电商类型和内容服务类型的网站,经常会出现因为配置错误造成页面链接无法访问的情况(404)。 显然,要确保网站中的所有链接都具有可访问性,通过人工进行检测肯定是不现实的,常用的做法是使用爬虫技术定期对网站进行资源爬取,及时发现访问异常的链接。 对于网络爬虫,当前市面上已经存在大量的开源项目和
阅读全文
摘要:推荐一些其他的资源,爬虫相关 大话爬虫的基本套路 Puppeteer之爬虫入门 利用爬虫技术能做到哪些很酷很有趣很有用的事情? Web网页爬虫对抗指南 Part.1 如何学习python爬虫 各种爬虫实例, 强烈推荐
阅读全文
摘要:为什么要进行爬虫对抗? 知己知彼,百战不殆。 爬虫往往会爬取其他服务的一些核心资源,这些资源是服务提供商重点保护的资产,所以很多网站都会启用一些反爬虫策略。 这里我们简单分析一下反爬虫的常用手段。 监控后台日志和流量模式; 如果发现异常活动,则限制访问 通过日志是可以看出一些异常访问的,比如例如来自
阅读全文
摘要:在V2EX主页的右侧有个最热主题区域,里面列出了当日的热门讨论话题。使用爬虫技术获取这些热门主题文本和链接。 注意:v2ex本身提供了接口去获取这些热门主题的详细信息,本节内容只是举例,并不是最佳实践 具体步骤 访问v2ex主页,获取html文本 分析html文本,找出待获取内容的特征 解析html
阅读全文
摘要:最近看下爬虫方面,用一些通用的做一些小的实验。都是比较基础的代码,高手请跳过。 说明 这里只是实现获取知乎每日/每月最热问题的一个基本的小功能(https://www.zhihu.com/explore) 具体步骤 访问知乎的发现主页,获取html文本分析html文本,找出今日最热和本月最热的htm
阅读全文
摘要:问题如下: 解决办法: 提示chrome driver没有放置在正确的路径下,于是下载chrome dirver,然后放置到/usr/bin的目录下,再次运行就OK了! 需要根据自己的chrome浏览器版本,来下载对应版本相应包,我的版本师62,所以下载2.35版本,如下: https://chro
阅读全文
摘要:使用Pycharm,遇到unresolved reference的解决办法 在编程过程中,遇到很多错误,提示都是unresolved reference。 问题原因:Pycharm默认该项目的根目录为source目录,每次import都是从source目录开始查找 解决步骤: 在进行问题排查后,从s
阅读全文
摘要:这个博客中写了一些研究方面的文章,值得学习阅读:http://www.kylen314.com/archives/5814 这位工程师给出了如下的回答: (0) 还是要强调的是matlab是给工程师而非码农用的。如果不了解工程领域,至少应该知道在software之外还有firmware这么一个世界吧
阅读全文
摘要:非负整数:^\d+$ 正整数:^[0-9]*[1-9][0-9]*$ 非正整数:^((-\d+)|(0+))$ 负整数:^-[0-9]*[1-9][0-9]*$ 整数:^-?\d+$ 非负浮点数:^\d+(\.\d+)?$ 正浮点数 : ^((0-9)+\.[0-9]*[1-9][0-9]*)|([
阅读全文