博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

利用C#开发简单的阿里巴巴联系信息提取程序

Posted on 2007-01-23 14:03  张冰  阅读(1638)  评论(8编辑  收藏  举报

功能需求:
1、从阿里巴巴网站的个人联系方式网页中提取联系方式
2、联系方式的网页命名规则:
 eg: http://lzhdechen.cn.alibaba.com/athena/contact/lzhdechen.html
 ex: http://用户名.cn.alibaba.com/athena/contact/用户名.html
3、所有联系信息都存储在<P>这个段落标签中。
4、新建一个window application,增加一个窗体,左侧是一个文本框下+列表框,支持录入多个用户名
    右边是一个浏览器,点击左边节点,可以进行浏览。加载完毕后提取<P>标签中的内容,然后将该内容与阿里巴巴注册的用户名写入数据库中。
5、提供联系信息查询功能。通过"+"作为查询条件的分隔符。将查询到的结果列到列表框中。


提取文本中的联系方式内容结构如下:

罗振海 先生 ( 总裁办 副总 )

电  话: 86 0755 2582000-8818
传  真: 86 0755 25739506
地  址: 中国 广东 深圳市 罗湖区莲塘鹏基工业区702栋3楼东
邮  编: 518004
公司主页: http://www.takcere.com
           http://lzhdechen.cn.alibaba.com


实现:
系统部署:
     .net framework 2.0
      网络通畅.
      阿里巴巴的注册用户.

窗体设计:

     见功能需求说明4

代码设计:
      利用windows application来实现管理,未采用web方式来管理.   
       利用oledbClient类库访问data.mdb
      利用webbrowse控件访问网页
      利用HtmlDocument,HtmlElement类库,HtmlDocument.GetElementbyTag("P").Innertext方法来进行对网页中联系信息的提取.
      在切换列表框的选项后,webbrowse自动导航到需要的网页,待文档加载完毕后,提取文档中的内容,保存到data.mdb的用户表,在公司名称与备注字段中记录注册用户名,联系信息.
      支持在查询文本框中输入多个查询条件,条件通过"+"分隔,通过与备注字段比较,检索记录,将检索到的记录中的公司名称列在用户列表框中.


操作简介:
       通过浏览器访问阿里巴巴的网站,查询到想要的用户注册名.然后在程序中录入注册用户名, 系统会自动导航到阿里巴巴相关页面,提取联系信息到界面文本框中,并记录联系信息.
      通过在查询框中录入查询条件,多个条件可以用"+"分开.比如: 罗振海+25739506.将查到的结果列在列表框中.切换列表选择项,将完整的联系信息填入到文本框中,并自动的导航到注册用户联系信息界面.

源代码与安装文件
下载地址: https://files.cnblogs.com/bobzhangfw/阿里巴巴联系信息提取.rar