随锐旗下互动传媒:

浙江天宇-文档数字化系统

http://www.weaseek.com  2005年08月03日 00:00:00   来源:搜讯网 发表评论

摘要:文档数字化系统融合了高速扫描、OCR识别和全文检索三项技术,可以将数以万计的纸介质的文件、手稿、档案、资料、文书等快速、自动地转换成数字化文本、影像,并实现海量信息高速检索、查询。

系统简介

文档数字化系统融合了高速扫描、OCR识别和全文检索三项技术,可以将数以万计的纸介质的文件、手稿、档案、资料、文书等快速、自动地转换成数字化文本、影像,并实现海量信息高速检索 、查询。

实现对文档资料基于内容的检索与原件显示的应用目标。数十万篇文档资料,亚秒级内可以查询到目标数据。

系统工作流程

功能特点

纸本文献数字化加工

文档资料扫描:扫描部分提供图像增强处理功能,如电子图像的自动校正、自适应纸张大小、灰度加强和去黑边等功能。文字识别与影像压缩:对扫描的图像调用OCR程序进行文字识别,对文档著录项辅助标引,影像文档和相应的识别文本检查、订正后自动压缩打包,自动地转换成标准格式。数字化加工自动化程度高:系统实现文档资料高速扫描,批量汉字自动识别、著录项标引和数字化文档自动入库,整个过程基本自动完成,人工干预很少,大大提高文档数字化的自动化程度。系统支持各类中、高速扫描仪及普通低速平板扫描仪。

电子文档管理

系统以先进的CGRS全文数据库作为后台管理系统。CGRS全文数据库曾经历TB级数据资源的考验,满足未来数据不断增加的需要。

文档检索与利用

系统支持单字段(著录项)简单查询,也能进行多字段多条件复合检索。提供导航检索、模糊检索、二次检索、距离检索、内容关联检索和同义词相关词扩展等多种高级查询方式。文档内容的全文检索。与国内已有的系统只能通过字段(著录项)检索相比,CGDMS实现了扫描文档正文内容的全文检索,检索结果定位到文档所在页面的具体位置,文件内容原版显示,可自由放大或缩小,大大提高了电子文档利用深度,为进一步开展电子文档内容分析、挖掘打下基础。图、文、声、像一体化检索。

运行环境

硬件环境:普通PC机,256M以上内存。操作系统环境:Windows 98 / 2000 / XP / 2003等。

应用领域

系统可广泛地应用于政府机关、图书馆、档案馆、博物馆、出版社、银行、税务、保险等机构,进行文件、图书、档案、票据等的数字化加工、管理和提供信息服务。

[责任编辑:]热门关键词:

相关文章

发表评论

  • 昵 称:
  • 匿名发表

>>更多评论

  • · 您将承担一切因您的行为、言论而直接或间接导致的民事或刑事法律责任
  • · 留言板管理人员有权保留或删除其管辖留言中的任意内容
  • · Weaseek.Com提醒:不要进行人身攻击。谢谢配合。