摘要: 线性回归 逻辑回归 SVM 单层感知缺陷 神经网络 激活函数 学习率 欠拟合,过拟合 文本分类 长文本:SVM 短文本:CNN 关键词提取:TF-IDF 实体识别:NER(named entity recognition) 人工智能非常依赖于各种先验知识,依赖于系统方案的设立 数据源:爬虫对人工智能 阅读全文
posted @ 2023-01-31 21:43 cxc1357 阅读(30) 评论(0) 推荐(0) 编辑
摘要: 架构 工程结构 参考 https://zhuanlan.zhihu.com/p/272367027 阅读全文
posted @ 2023-01-31 21:42 cxc1357 阅读(14) 评论(0) 推荐(0) 编辑
摘要: 1、登录 登录方式 表单 ajax xml(国内少用) 表单类型 row from-data x-www-form-urlencoded urllib2 插件 ProxyHandler 代理 build_opener,注册 handler CookieJar python3 设置 redirect= 阅读全文
posted @ 2023-01-31 21:42 cxc1357 阅读(35) 评论(0) 推荐(0) 编辑
摘要: 分类 H5,浏览器 静态 动态 APP H5 html + 数据 html,内嵌 webview native 网页必须推给浏览器,APP 加密协议、显示方案都由 APP 自己定 工具 AnyProxy anyproxy.io 在 client 和 server 中间,对交互数据进行处理 消息类型( 阅读全文
posted @ 2023-01-31 21:42 cxc1357 阅读(24) 评论(0) 推荐(0) 编辑
摘要: 爬取工具 chromedriver Selenium PhantomJS:基于nodejs,无界面服务器,适合大规模爬虫集群部署 图片 http://wx2.sinaimg.cn/thumb150/4b7a8989ly1fcws2sryvrj22p81sub2a.jpg re.findall('/[ 阅读全文
posted @ 2023-01-31 21:41 cxc1357 阅读(22) 评论(0) 推荐(0) 编辑
摘要: PageRank 计算每个网页的PageRank值,根据此值大小对网页重要性排序 动态排序 主从服务器维持心跳 根据重排条件,启动重排流程 通知爬虫暂停爬取 爬虫在心跳回复中收到暂停通知,暂停爬取并通知主机 主机等待所有爬虫暂停 主机开始重排网页 重排结束,设置标志位 心跳回复收到回复指令,继续爬取 阅读全文
posted @ 2023-01-31 21:41 cxc1357 阅读(54) 评论(0) 推荐(0) 编辑
摘要: 表单 <form>...</form>创建HTML表单 用于向服务器提交数据 登录方式 form-data x-www-form-urlencoded ajax以json方式提交数据 登录是为了得到 cookie 登录成功后 Header 会有设置 cookie 的相关信息 把服务器返回的 cook 阅读全文
posted @ 2023-01-31 21:37 cxc1357 阅读(63) 评论(0) 推荐(0) 编辑
摘要: 为什么用 快 反爬虫 多线程 复杂性 资源、数据的安全性:锁保护 原子性:数据操作是天然互斥的 同步等待:wait()、notify()、notifyall() 死锁:多个线程对资源互锁 容灾:任何线程出错,程序都会停止 Python 多线程 支持多线程 直接映射到native线程(Java多线程由 阅读全文
posted @ 2023-01-31 21:36 cxc1357 阅读(69) 评论(0) 推荐(0) 编辑