随锐旗下互动传媒:

清华同方互联网专题搜索引擎解决方案

http://www.weaseek.com  2007年01月26日 00:00:00   来源:搜讯网 发表评论

清华同方互联网专题搜索引擎,利用先进的技术,快速采集海量信息,经过自然语义分析过滤,可及时、准确地从互联网上采集对我们有用的信息,并存储在本地。

产品介绍

互联网上的资源浩如烟海,良莠不齐,给我们提供了丰富的信息,同时也增加了我们获取准确信息的难度。清华同方互联网专题搜索引擎针 对这个问题,利用先进的技术,快速采集海量信息,经过自然语义分析过滤,可及时、准确地从互联网上采集对我们有用的信息,并存储在本地。

本系统具有优异的性能,强大的功能和易用的人机界面,是企业、政府、高校等单位开发利用互联网信息资源的有效工具。已经广泛应用于各个单位的互联网专题特色库的采集与发布,广泛应用于新闻出版单位的网络出版监管,广泛应用于企业竞争情报的采集与利用。

行业应用

企业可通过该系统及时获取最新的行业信息、市场动态和竞争情报,在第一时间内发现潜在的威胁和市场机遇,为企业经营决策提供支持,提高企业的竞争力和灵敏度。

政府可通过该系统及时发现互联网上的新闻热点和敏感信息,准确把握社会舆论动向,做出正确的决策。

高校和研究院所等学术机构可通过该系统对学术类的网站、论坛、数据库等信息源进行定向采集,及时获取该学术领域内的最新研究成果和研究热点。

系统结构

清华同方互联网专题搜索引擎涉及信息采集、智能过滤、动态发布、任务调度四个模块。

信息采集 网络蜘蛛是系统的基础部件,负责从互联网抓取数据,网络蜘蛛采用多线程技术设计,可以同时抓取多个网站,并可以根据需要进行群集。 智能过滤 智能代理是系统的核心模块,它集成多种智能信息处理算法,可基于先进的语义规则技术进行浅层语义分析,对所有抓取的网络数据进行全面的分析过滤,准确识别出所需要的信息。智能代理自动获取操作对象知识以及用户偏好,可及时自我学习,完善知识体系,提高智能化程度。 动态发布 智能代理分析过滤出来的信息,可实时发布在数据库中,进行实时排重,可供用户进行检索、浏览和下载。 任务调度 应用服务器是整个系统的调度中心,主要起到任务分配、子系统间消息转发及各子系统调度作用。各个子系统连接到应用服务器,由应用服务器统一管理和调度,各子系统可随时连接,也可随时断开,而不影响整个系统的运行,具有很强的扩展性。 功能特点先进的智能代理

支持自动分类; 自定义分类体系,为用户提供了多种方式定制感兴趣的主题; 拥有自学习功能,可以根据用户反馈信息,及时完善知识体系,提高智能化程度。

强大的信息采集能力

多线程并行采集; 实时动态监控特定目标; 可以灵活定制采集的策略; 可以大范围采集,也可以针对特定网站和频道进行采集; 支持RSS协议,可实现RSS资源的采集; 系统可以采集多种文档信息,包括txt、doc、rtf、xml、ppt、pdf、chm、caj等。

强大的发布系统

支持动态摘要和敏感摘要,关键词标红; 提供多种发布风格; 提供网页快照和相关网页自动关联。

个性化定制

支持用户自定义个性化分词词典,只需要简单的输入自定义的各种专业词汇,系统便会按照用户的定制精确检索,大幅提高检索效率和查全查准率。

支持主流中文编码标准

包括GBK(汉字内码扩展规范)、GB2312(简体)、BIG5(繁体),并且能够在不同的编码之间转换。

支持多语种

支持多语种网页的采集、分析、过滤、发布与检索。

[责任编辑:]热门关键词:

相关文章

发表评论

  • 昵 称:
  • 匿名发表

>>更多评论

  • · 您将承担一切因您的行为、言论而直接或间接导致的民事或刑事法律责任
  • · 留言板管理人员有权保留或删除其管辖留言中的任意内容
  • · Weaseek.Com提醒:不要进行人身攻击。谢谢配合。