软行天下-中国共享软件注册中心 登录 - 开发者加盟 - 网站联盟  
 首页 
 软件搜索 
 软件分类 
 软件注册 
 我的软件包 
 帮助 
 
  开发者档案 
   

开发者档案 抓糖网
 主页:www.zhuatang.com
 邮箱:
 QQ/MSN:zhsoft88@gmail.com
 电话:暂未提供电话服务

  相关软件 
   

囧浏览器 0.1
五笔打字训练程序WBXL 5.1
海狗垂直搜索专用网络蜘蛛系..
海星垂直搜索专用网页结构化..
海鹞企业级邮件营销服务器 ..
海蛛垂直搜索专用网络蜘蛛系..
海猫网页预览拍照服务器 4.1
海葵垂直搜索专用网页抓取服..
查看更多>> 
  客户服务 
 
    如果您在使用“海蛛垂直搜索专用网络蜘蛛系统”的过程中遇到问题,请与软件开发者 抓糖网 联系。
    软行天下仅处理您在支付注册费用及注册信息发送过程中出现的问题。
如何注册购买共享软件?
在线咨询 >>




 

  海蛛垂直搜索专用网络蜘蛛系统



No.24120
最新版本  4.4
更新日期  2008-11-02
软件大小  15MB
运行平台  Win9x/ME/NT/2000/XP/2003,Linux/Unix
所属分类  网络工具 - 网页浏览
推荐等级     << 投票
人气指数  29100
下载试用 下载1 下载2 下载3 川铎下载 注册价格:1000.00 元/套
  立即成为注册用户


海蛛垂直搜索专用网络蜘蛛系统 注册说明

   “海蛛垂直搜索专用网络蜘蛛系统”是一款共享软件,您可以先下载试用,觉得满意后再付费成为注册用户。本软件在未注册之前会有“能免费试用30天”的功能限制,如果您在试用后决定一直使用下去,请通过本站向软件开发者支付 1000.00 元/套的注册费用,以获得该软件的使用授权和软件开发者提供的技术支持与服务。

  海蛛垂直搜索专用网络蜘蛛系统 功能介绍

对于垂直搜索引擎来说,网络蜘蛛是非常重要的,因为在垂直搜索领域,数据的收集工作都是由蜘蛛程序来完成的。
垂直搜索引擎除了要设计蜘蛛程序外,还要管理这些蜘蛛程序的运行,这是比较复杂的工作。如果缺乏一套有效的管
手段,那么垂直搜索引擎将面临一场恶梦。

然而幸运的是,我们有了海蛛--这个领先的垂直搜索专用网络蜘蛛系统。有了海蛛,垂直搜索更简单!使用了海蛛,
一切变得有条不紊,变得简单起来。

海蛛五大功能特色

一、提供WEB管理接口,操作方便

海蛛启动后,用户可用浏览器访问http://localhost:6070(注:6070为默认端口,用户也可修改此端口号),登录后
便可进行查看系统信息、管理任务和修改登录用户名及密码的工作。任务管理包括新建、修改、复制、启动、停止等
项。一切都是通过浏览器来进行,非常简单。

二、如何持久化数据,用户决定

对于抓取到的数据,如何持久化的问题是由用户决定的,海蛛提供了持久化的接口IDataPersist,用户端需要实现这个
接口。关于用户是如何实现的,海蛛并不关心。通过采用接口方式,用户持久化数据有了非常大的灵活性,对于不同
类的数据,能够采用不同的方式进行持久化,满足了实际需求。亦即,抓取来的数据既可存到文件中,也可数据库中,
更可通过网络传到另外一台机器中。这一切都由用户根据实际情况来决定。

三、采用javascript编写蜘蛛程序,修改容易

蜘蛛程序既可用C/C++等编译型语言来编写,也可用javascript、ruby、python等动态型脚本语言来编写。编译型语
言不能直接执行,需要经编译器译成机器码后才能执行,速度较快,但维护不方便。动态脚本语言能马上执行,没
有编译这个过程,编写容易,修改容易,维护也容易。有鉴于蜘蛛程序运行于后台且维护量比较大,我们采用了脚
本语言javascript作为蜘蛛程序的编写语言。

海蛛为蜘蛛程序提供了内置的document对象,通过这个对象,蜘蛛程序可以访问到当前抓取到的文档的任何位置的数
据,并可将数据进行持久化。下面一段代码能将网页的文本内容抓下来:

var text = document.textOfNode('/html/body');
var map = new java.util.HashMap();
map.put('text',text);
document.saveData(map);

document.textOfNode用于获取指定节点的文本内容,而document.saveData用于将数据持久化。怎么样?简单吧。

四、蜘蛛程序运行时间多样,选择灵活

为了适应各种情况,海蛛提供了多种运行时间选择:手动运行,每隔X分钟,每隔X小时,每天X时X分,每周周XX时X
分,每月X日X点X分,每年X月X日X时X分。这些时间选择,完全满足了数据抓取任务的要求。

每项任务都可选择自己的运行时间,任务启动后,海蛛会在合适的时刻运行此项任务,执行数据的抓取工作,经由用
户提供的持久化类,将数据保存起来。

五、采用海葵抓取网页,信息完整

为了获取结构化的网页数据,并且得到网页的完整数据(静态或动态的),海蛛采用了海葵--这个全球首款基于浏
览器构建的垂直搜索专用网页抓取服务器来作为后台的抓取工具。它有两种运行模式:第一种是普通模式,仅获取一
页数据即关闭连接;第二种是分页模式,根据蜘蛛程序提供的翻到下一页的脚本,会一直保持连接,抓取数据,直到
最后一页为止。分页模式适用于用javascript来实现翻页的网站,利用海葵能执行javascript的特性,可准确得到每页数
据,抓到普通蜘蛛程序抓不到的网页数据。

想做一个垂直搜索引擎吗?使用海蛛吧,它让您如虎添翼!

想让您的垂直搜索引擎工作得更好吗?使用海蛛吧,它让您省力省心!

海蛛,让垂直搜索更简单!




立即成为注册用户


关于我们 - 联系方法 - 客户服务 - 合作伙伴 - 意见反馈 - 免责声明
本站共享软件之资料与版权为其开发者所拥有并承担责任。用户使用本站之注册服务即表示接受 用户协议
© 2004-2008 软行天下共享软件注册中心 | 西安软行科技有限公司
增值电信业务经营许可证
陕ICP证B2-20060051号
支付宝信任商家