Exchange全文检索概述
来源:互联网
作者:west263.com
时间:2008-02-23
西部数码-全国虚拟主机10强!40余项虚拟主机管理功能,全国领先!双线多线虚拟主机南北访问畅通无阻!免费赠送企业邮局,.CN域名,自助建站480元起,免费试用7天,满意再付款! P4主机租用799元/月.月付免压金!
0、写在前面
本文主要讲述在Windows2000 Server环境下,Exchange Server和Sharepoint Portal Server全检索功能的应用,同时涉及一些SQL Server下的概念。
本文只会对一些基本的概念进行说明,主要以个人理解和事例为主,希望了解周详的资料,能够访问参考文献的连接。对于文章中的错误和不足,请及时指正。
1、基本概念
我相信很多人对于全文检索的功能都很的敬畏,心想Exchange居然能够查找一个作为附件的PDF文档中的内容,Exchange实在太强了。其实Exchange没干啥事(还是干了点事情的,不是什么都没做,下面会讲到),全文检索是Windows下一个重要的服务“MS Search Service”实现的功能,Exchange只需要和MS Search交互就自然拥有了全文检索的功能。所以在MS的Enterprise Server中不但仅Exchange,Shareporit Portal Server和SQL Server等都支持全文检索。
Windows下更有一个服务Index Service,也完成类似的工作,有他存在,就连Windows下的文档系统连同IIS都能够进行全文检索,很方便的功能。
不知道可不能够这么说Index Service是MS Search Service的一个特例,或倒过来,我没有看到两者在体系结构连同完成功能上有什么不同,这也是我比较困惑的地方之一。
说到全文检索必须要明确一些基本概念,我们才能够知道那个服务干了点什么,这样实现特定功能的时候才明白应该在那一个层面上进行研发。
全文检索分为两部分的工作:全文索引(Full-Text Index)和全文查询(Full-Text Query)。我们知道为了提高查询的效率,有一种机制叫做“索引(Index)”,索引中存储了关键字和对应的记录在逻辑存储空间中的位置。数据库管理系统(DBMS)中有索引表,相信大家都能够理解,全文检索中也是同样的原理。
全文索引(Full-Text Index):创建索引的过程,建立关键字和记录的对应关系。创建完成的索引信息或以增量的方式修改属性信息。
索引分类(Full-Text Catalog):能够认为是关键字存储的组织形式。
全文查询(Full-Text Query):利用索引分类,根据关键字查找对应的记录。
在MS的产品体系结果中,MS Search Service和Index Service这类服务(以后主要描述Search Service)的主要工作就是创建和维护索引表和索引分类,能够称之为搜索引擎;诸如Exchange和SQL Server是为记录提供存储空间,能够统称为存储引擎,存储引擎必须支持MS Search的一些特定接口,就能够利用。全文索引的过程就是MS Search请求存储引擎,获得需要索引的数据,分析关键字,创建或维护索引信息;全文查询就是存储引擎请求MS Search,MS Search根据关键字返回对应的纪录的位置,存贮引擎组织这些记录返回给调用者。
这样我们能够了解到,假如希望支持全文检索,那么首先要有全文检索服务的提供者,支持全文检索的存储引擎。在Windows Server的平台下,针对Exchange的应用,以上条件均满足,那么我们能够开始了!
2、全文检索下的研发
了解了Windows平台下全文检索基本的体系结构,我们能够在很多方面进行相关的研发工作。
2-1、全文查询
全文检索就是利用查询语句,在存储引擎中查找满足条件的记录。这个应该是大家最熟悉也是应用最多的方面,也是本文讲述的重点,后面有专门的章节周详描述这部分的功能。
需要指出的一点是,全文查询的过程依赖于MS Search连同他所维护的索引数据,但是是存储引擎支持的功能,这部分的应用是和存储引擎进行交互,MS Search这个搜索引擎对我们来说是透明的。针对不同的存储引擎,查询语句(基本上就是SELECT了)是不同的,但是没有本质的区别。
2-2、MS Search下IFilter的研发
全文检索最令人感到神奇的地方就是,他怎么能够从Word或PDF这类二进制或特定编码的文档中检索出文本字符串呢?另一个问题就是MS Search是不是支持任何的文档格式呢?
MS Search并不能支持任何的文档格式,即使以MS之强悍,也无法对抗天下英豪,但是MS Search提供一个机制,使支持任何一种格式的文档成为可能,这个机制就是Index Filter,简称IFilter。我个人以为IFilter最终要的工作有两个,一个是读取指定格式的文档,解析内部的文本内容(而非格式或图像、其他二进制包容对象)和文档属性(例如:作者,分类等);第二个就是分词(Parsing Word or Phrase),全文检索的命中率高不高,关键看关键字生成的是否合理,我总觉得现在以后的这些IFilter对于中文支持的不够理想,检索中文经常莫名其妙。
文章整理:西部数码--专业提供域名注册、虚拟主机服务
http://www.west263.com
以上信息与文章正文是不可分割的一部分,如果您要转载本文章,请保留以上信息,谢谢!
热点关注
- 利用Exchange Server 200
- Exchange 2000 Outlook W
- 实现Outlook Web Access
- Exchange 2007 数据保护
- 利用Exchange Server 200
- 安装配置和使用Windows S
- Windows 2000域控制器 Ex
- Exchange Server中使用收
- Exchange 2000 Server 备
- Exchange研发(六) Exchan
- 使用Exchange IMF引擎过
- 如何使用 Exchange 2003
- 维护Exchange Server 200
- 关于OWA“HTTP/1.1 503
- 如何用Exchange Server 2
- Instant Messaging的常见
- Exchange 2003和Exchange
- 在 Exchange Server 2003
- 三步轻松搞定导出/复制邮
- Exchange 常用工具
- Exchange Server 2003的
- 通过LDAP查询导出Exchang
- 迁移Exchange 2003到Exch
- 使用NTBACKUP备份和恢复E
- 使用Exchange 2000 Serve
- Exchange灾难恢复全过程
- 保护 Exchange 通信安全
- ISA Server 2004中的Outl
- Exchange Server 2003中
- 如何安装Exchange 2000 S
- Exchange系统的默认队列
- 如何使用Outlook Web Acc
- 使用 Microsoft ISA Serv
- 如何從Exchange 5.5升級
- Exchange 2000和Exchange
IDC资讯
虚拟主机
域名注册
托管租用
vps主机
智能建站
网站运营 建站经验 策划盈利 搜索优化 网站推广 免费资源
网站联盟 联盟新闻 联盟介绍 联盟点评 网赚技巧
行业资讯 业界动态 搜索引擎 网络游戏 门户动态 电子商务 广告传媒
网络编程 Asp.Net编程 Asp编程 Php编程 Xml编程 Access Mssql Mysql 其它
服务器技术 Web服务器 Ftp服务器 Mail服务器 Dns服务器 安全防护
软件技巧 其它软件 Word Excel Powerpoint Ghost Vista QQ空间 QQ FlashGet 迅雷 Internet Explorer
网页制作 FrontPages Dreamweaver Javascript css photoshop fireworks Flash
程序设计 Java技术 C/C++ VB delphi
网络知识 网络协议 网络安全 网络管理 组网方案 Cisco技术
操作系统 Win2000 WinXP Win2003 Mac OS Linux FreeBSD
网站运营 建站经验 策划盈利 搜索优化 网站推广 免费资源
网站联盟 联盟新闻 联盟介绍 联盟点评 网赚技巧
行业资讯 业界动态 搜索引擎 网络游戏 门户动态 电子商务 广告传媒
网络编程 Asp.Net编程 Asp编程 Php编程 Xml编程 Access Mssql Mysql 其它
服务器技术 Web服务器 Ftp服务器 Mail服务器 Dns服务器 安全防护
软件技巧 其它软件 Word Excel Powerpoint Ghost Vista QQ空间 QQ FlashGet 迅雷 Internet Explorer
网页制作 FrontPages Dreamweaver Javascript css photoshop fireworks Flash
程序设计 Java技术 C/C++ VB delphi
网络知识 网络协议 网络安全 网络管理 组网方案 Cisco技术
操作系统 Win2000 WinXP Win2003 Mac OS Linux FreeBSD



