代码改变世界

【技术原创】京东商城价格图片分析解析源代码下载(C#),附演示程序

2011-11-18 10:31  Brush  阅读(4710)  评论(29编辑  收藏  举报

      前阵子研究过京东商城的价格图片采集算法,并在《【技术原创】探讨一下京东商城价格图片解析算法的优化,附演示程序下载》一文中详细阐述了这个算法的来源及推理过程,随后我又将自己演示的程序上传供大家下载。今天我就关于京东价格采集分析这块,将C#写的源代码向大家免费开放,希望能对大家有所帮助,同时也希望大家尊重本人的劳动成果,在项目中使用的时候尽量保留代码头部标示的出处。

     此图片解析算法理论上是京东价格图片解析速度最快的了(当然不包括下载图片),不知道有没有朋友有比这个还快的思路或者实现Demo,有的话可以在这里交流一下。

      下面就是演示程序的截图:

image

      这两天呢,我又将代码整理了一下,将算法部分单独弄到一个项目里,使其成为DLL以供其它项目使用。其中SpiderHtml是根据商品页面的HTML代码采集价格类,它提供了两种方法:根据商品地址或根据商品页面HTML采集价格;SpiderImg是根据商品价格图片分析出价格,它同样也提供了两种方法:根据商品的ID或根据商品价格图片解析价格。HTML方式和图片方式各有各的优缺点,前者使用正则表达式直接找出价格,但容易被京东发现短时间内连续访问页面,可能会被屏蔽掉;后者不访问页面直接下载商品价格图片,并采用了性价比相当高的算法快速解析出商品价格(大家可以看到上图中,解析39个价格,比对了1115次,平均每个价格图片比对了不到29次,也就是说每张图片大约采集29个像素点即可以解析出图片上的所有数字)。

      若想更安全地,高正确率地使用此接口,建议同时使用两种方案,即使用HTML方式采集价格后,也要通过图片方式再验证一下,只有两者相等再确定(经本人实验表明,采集了相当量的数据后,并未发现有解析错的地方)。

      源代码下载地址:JingDongInterface.zip

      演示程序下载地址:JingDongInterfaceExe.zip

注:此文章最初发布在我的个人独立博客(源地址),现在转到园子里拿来供大家讨论分享。