摘要: 在下写了10年Python,期间写了各种奇葩爬虫,挣各种奇葩的钱,写这篇文章总结下几种爬虫挣钱的方式。 阅读全文
posted @ 2018-12-06 21:40 阿米扎 阅读(50041) 评论(4) 推荐(3) 编辑
摘要: 猿人学python爬虫练习平台主要涉及JS反混淆,CSS反加密,图文验证码对抗等技术 阅读全文
posted @ 2021-03-11 11:23 阿米扎 阅读(1048) 评论(0) 推荐(0) 编辑
摘要: 安卓逆向抓取、JS 高阶逆向抓取、安卓群控抓取、容器定制化 阅读全文
posted @ 2020-06-01 17:52 阿米扎 阅读(3778) 评论(0) 推荐(1) 编辑
摘要: “Talk is cheap show me the code”,这是编程人条,说半天不如几行代码更有说服力。接下来,我们就用代码说明那些不怎么常见但是非常有用的小技巧。 变量值互换 这是非常Python范儿(Pythonic)的值交互方法,省去了C、C++中的中间变量 把list的所有元素拼接成一 阅读全文
posted @ 2019-03-05 11:18 阿米扎 阅读(419) 评论(0) 推荐(0) 编辑
摘要: 1. 闲扯一下:文件 磁盘上的数据,我们一般称为 “文件” ,一般不同的文件都有各自的后缀名,比如 .txt .docx .xlsx .jpg .mp3 .avi 。这些不同类型的文件一般分为两大类: 文本文件: 用记事本打开看到的是英文、发文、中文等字符; 二进制文件: 用记事本打开看到的可能就是 阅读全文
posted @ 2019-03-05 09:34 阿米扎 阅读(691) 评论(0) 推荐(0) 编辑
摘要: pip install的东西从哪里来的? 从PyPI (Python Package Index)来的,官网是: https://pypi.python.org/pypi/执行pip install terminaltranslator命令的时候,它就会去从官方网站搜terminaltranslat 阅读全文
posted @ 2019-03-04 14:23 阿米扎 阅读(538) 评论(0) 推荐(0) 编辑
摘要: 1. 问题出现的背景 通过ssh远程登录服务器在上面工作,有时候很有可能由于网络断开而导致ssh链接断开,或者下班后想继续在家登录到服务器继续工作。这些情况都需要服务器保持我们的工作环境,比如,vim打开的代码,正在运行的程序等等。 为了保持远程服务器上的工作现场,我们可以选用screen、tmux 阅读全文
posted @ 2019-03-04 14:15 阿米扎 阅读(960) 评论(0) 推荐(0) 编辑
摘要: 互联网时代,信息产生的数量和传递的速度非常快,语言文字也不断变化更新,新词层出不穷。一个好的新词发现程序对做NLP(自然预言处理)来说是非常重要的。 N-Gram加词频 最原始的新词算法莫过于n-gram加词频了。简单来说就是,从大量语料中抽取连续的字的组合片段,这些字组合片段最多包含n个字,同时统 阅读全文
posted @ 2019-02-20 17:10 阿米扎 阅读(1886) 评论(0) 推荐(0) 编辑
摘要: 平日里,大家接触到的更多的是二进制文件,比如word文档,图片,视频,音频等。为了保存和读取这些不同文件,各自都规定了各自的文件格式,这些格式是各自存储的规范。同时为了让保存的文件更小便于传输(比如,视频通过网络传输),各自还通过一些算法对文件数据进行压缩,尤其是图片、视频和音频都各自有很多压缩算法,比如图片的jpg,音频的mp3,视频的mkv这些即代表了相应的文件格式,还代表了其背后的压缩算法。这些多媒体数据的压缩算法的原则是,在保证媒体质量的前提下尽量使得数据存储量小。 除了文件本身的一些压缩算法,我们还经常使用一些通用的压缩软件对文件进行打包和压缩,比如zip,WinRAR等。 阅读全文
posted @ 2019-02-13 11:11 阿米扎 阅读(1380) 评论(0) 推荐(0) 编辑
摘要: 随着计算机记录的文字资料越来多,尤其是伴随着互联网发展,文字资料与日俱增。如何让计算机自动处理这些文字资料甚至是理解这些文字呢?计算机专家们为此开始了几十年的研究。 我根据自己的认识来总结以下自然语言处理这些年都干了些什么,有哪些好的应用。 阅读全文
posted @ 2019-02-13 10:54 阿米扎 阅读(480) 评论(0) 推荐(0) 编辑
摘要: 以下笔记整理于猿人学网站 Google搜索引擎建立至今已经快20年了,之后全球各类大大小小类似的搜索引擎也陆续出现、消亡。国内目前以百度为大,搜狗、360、必应等也势在必争。搜索引擎技术也发展的相当成熟,同时也就出现了很多开源的搜索引擎系统。比如,Solr、Lucene、Elasticsearch、Sphinx等。 阅读全文
posted @ 2019-02-02 16:27 阿米扎 阅读(5549) 评论(0) 推荐(0) 编辑