green168

博客园 首页 新随笔 联系 订阅 管理

影音地址批量提取搜索工具 2.0
下载地址:http://www2.cnblogs.com/Files/green168/greenmedia.rar
这个工具是专门针对制作音乐、电影和动漫搜索引擎网站开发的一个可以自动、批量、智能提取和搜索网站音乐、电影、flash地址连接的一个搜索工具。有了她,你可以制作出和百度和一搜媲美的音乐搜索引擎。感兴趣的朋友课一下载下来测试一下。同时,她还可以完整的提取某个音乐网站的整站音乐数据库,支持歌曲名称、歌曲连接地址、歌手、专辑的一次性批量提取。

主要功能:
1、根据设定自动批量提取单曲或专辑曲目连接地址。
2、专辑、歌手、歌曲分类存储。
3、支持需要登陆验证的网站。

 系统要求


  推荐运行环境 win2000推荐环境 最低运行环境
操作系统 windows2003 windows2000 + sp3 Windows2000 + sp2
数据访问组件 MDAC2.8 MDAC2.8 MDAC2.6
.Net SDK 1.1 正式版(自带) 1.1 正式版 1.0正式版

要安装Asp.net运行环境,请按顺序安装以下软件:

MDAC2.8 中文版下载地址:
http://download.microsoft.com/download/8/b/6/8b6198c0-fe96-4811-9d81-d5c76dd5fea8/MDAC_TYP.EXE
.Net Framework 1.1 可再发行组件包下载地址:
http://download.microsoft.com/download/7/b/9/7b90644d-1af0-42b9-b76d-a2770319a568/dotnetfx.exe

一、常规设置:


歌曲提取方式-影音播放地址:在使用歌曲提取方式时设定,这项设定告诉程序从那一个歌曲播放页面开始 到哪一个页面结束,例如上图中的设定为 从http://*************/music/showmusic.asp?id=5011 这一页面开始提取,一直提取到 http://******/music/showmusic.asp?id=5013 这一页结束。
专辑提取方式-专辑提取地址:在使用专辑提取方式时设定,这项这项设定告诉程序从那一个专辑页面开始 到哪一个专辑页面结束,例如上图中的设定为 从http://*************/music/ShowSpecial.asp?Specialid=366 这一专辑页面开始提取,一直提取到 http://******/music/ShowSpecial.asp?Specialid=366专辑页面结束。
专辑提取方式-影音播放地址:在使用专辑提取方式时设定,一般情况下这项设置和歌曲提取方式-影音播放地址设置相同,只是id号不需要设置,id号将由系统自动提取。
 
二、专辑详细设置 
 
专辑详细设置-名称:在专辑页面系统提取专辑名称的模式,四种模式任选其一。屏蔽字符:如果提取的专辑名称中含有其他多于字符,可在这里设定进行屏蔽。
专辑详细设置-歌手:在专辑页面系统提取专辑歌手的模式,四种模式任选其一。屏蔽字符:如果提取的专辑歌手中含有其他多于字符,可在这里设定进行屏蔽。
专辑详细设置-歌曲id-列表开始标志-专辑页面源文件中歌曲列表一部分的开始标志字符串,需要人工进行分析,这里我们要注意一下,尽量选择最靠近歌曲列表的字符串,以来可以提高提取速度,同时增加提取的准确率。
专辑详细设置-歌曲id-结束标志-专辑页面源文件中歌曲列表一部分的结束标志字符串。
专辑详细设置-歌曲id-id前缀:一般情况下,专辑页面源文件中每首歌曲都会有类似这样的字符串 a href=playe.asp?id=4937,红颜色的部分就是我们这里需要设定的id前缀。本例中是 download.asp?id= 
  
三、单曲详细设置
 
不管歌曲提取方式还是专辑提取方式这一项我们都需要进行设定
这项设置一般情况下我们可以让程序自动填充,在单曲播放页面的源文件中我们找到歌曲的名称和歌曲的地址,填入自动一栏中的 名称 和 地址 中,设定合适的偏移量,一般为10-30之间的数字,然后点击填充,这时程序会自动把上面的项目进行填充,如果上面的栏目除“地址前缀”外有空行,说明我们的偏移量设定不合适,或者名称、地址填写错误。
需要注意:如果提取的歌曲连接是相对地址,程序会自动识别为完整的相对地址,如果本页提取的是一个动态页面,而且需要我们指定提取的二级页面,我们这里就要设定这里的 地址前缀 。一般情况下可不用设置。
 
四、登陆设置 
 
当试听页面需要登陆才能打开的时候,我们需要设定登陆设置。
登陆页面:网站进行登陆验证页面的完整地址,一般情况下我们可以从网页源文件中找到 <FORM name=form2 action="UserChkLogin.asp" method=post> 这样的代码,这个“UserChkLogin.asp”就是登陆验证页面,前面加上网页的完整路径,填入即可。
登陆参数:action=UserChkLogin.asp&UserName=****&password=**** 其中红色部分是不可变的,其他的根据网站的不同会有所变化,绿色部分是登陆验证页面,蓝色部分是提交的用户名表单的名称,可以在网页源文件种找到,如:<TD align=middle><FONT color=#ffffff>用户:</FONT> <INPUT class=input id=username2 size=16 name=username> </TD></TR> 这一段中的 username ,紫色部分是提交的密码表单的名称,如<TD align=middle><FONT color=#ffffff>密码:</FONT> <INPUT class=input id=password type=password size=16 name=password> 中的 password ,黑色部分是预先注册好的 用户名和密码。
注意:验证码部分不需要设置,我们只对注册用户提供该项目的升级服务。
 
五、二级页面设置
 
当需要进行二次页面提取的时候需要设定该项目,设定方法同单曲详细设置相同,只是没有歌曲名称的设置。
六、运行流程
1、设定好常规设置页面。
2、根据需要,设定登陆设置。
3、根据需要运行歌曲提取或专辑提取菜单中的试提取,这是程序会在程序安装目录下,生成tmp.txt
4、参照tmp.txt的内容设置专辑详细设置和单曲详细设置。
5、根据需要设置二次页面参数。可先运行试题曲,参照tmp2c.txt 进行设置。
6、再次试提取,如果提取正常,可提取入库。
根据提取网站的访问速度和服务器快慢,提取速度会有差异,程序最快的提取纪录是每秒40首。

posted on 2005-04-01 11:48  蛟龙博客  阅读(1113)  评论(4编辑  收藏  举报