随笔分类

随笔档案

1. Re:工作4年的一些想法
很欣赏楼主的这份淡定和坦然，不过也能看得出楼主是很拼的。
--MSSQL123
2. Re:【工作流】设计
@ xmj112288状态机还没到工作流的程度，最早起用这个方式做单据审核、文件审核等。仅仅是做个记录。直到BPM理论逐渐成熟，才发展出真正的工作流系统。你的这个状态机还是极度简单状态，不要随便就挂工...
--scottchenyu
3. Re:【工作流】设计
@ scottchenyu难道状态机就不是工作流了吗?这个只是设计思路而已,后续会更新具体实现和扩展...
--xmj112288
4. Re:【工作流】设计
@ leo2003流程是可以自定义配置的,后续会更新...
--xmj112288
5. Re:【工作流】设计
@ muki后续还会更新的...
--xmj112288

一. 正则表达式之常用表达式

正则表达式里有很多东西，学精不易，但做爬虫不需要学精，只要会其中部分就行，下面将介绍本人常用的表达式，基本够用了。

1. 去头去尾 --- (?<=...)...(?=...)

该表达式是本人用的最多的，如题意，去头去尾匹配中间，匹配单条数据时非常好用，正则好写，容易理解，且匹配出来的东西就是想要的

2. 分组 ---（?<组名>...）...

该表达式主要用在用一个正则匹配多条数据时使用

会了上面2个基本就没问题了

二. 抓包工具，做爬虫这是至关重要的，没有工具基本是做不出来的

这里推荐 ie11 自带的 F12。

目前还没发现抓不到的包，而且自带搜索功能也很给力

三. Http

　　1. 头信息：

　　　　a. Accept -- 接收到数据的类型，常见的有 html，txt, js, css, jpg

　　　　b. Referer -- 上次请求的 url

　　　　c. User-Agent -- 浏览器类型

　　　　d. Host -- 抓取网站域名

　　　　e. Cookie -- 头信息里最重要的，上面几个参数基本都可以通过抓包工具获取，但 Cookie 有些会失效，所以需要自己解析并仿照

　　2. 发包方式：

　　　　a. 发包方式有2中： GET 和 POST 可以有抓包工具获取

　　　　b. GET 方式较 POST 要简单， GET 的参数是放在 Url 里的，仿照起来较简单

　　　　c. POST 方式，POST 参数一般都会经过加密处理，而且还有些参数是通过 js 计算得到的，要想仿照就比较难了，尤其是登录的时候，对密码的加密，而且一般还会涉及到 Cookie，还有些网站有防爬验证，所以能不能成功大多看网站的安全性。

posted on 2014-12-03 17:23 xmj112288 阅读(199) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

阅读排行：
· 周边上新：园子的第一款马克杯温暖上架
· Open-Sora 2.0 重磅开源！
· 分享 3 个 .NET 开源的文件压缩处理库，助力快速实现文件压缩解压功能！
· Ollama——大语言模型本地部署的极速利器
· DeepSeek如何颠覆传统软件测试？测试工程师会被淘汰吗？