手机站
网通分站
电信主站
密 码:
用户名:
当前位置 : 主页>网站运营>搜索优化>列表

浅谈搜索引擎技术的难点

来源:互联网 作者:west263.com 时间:2008-02-22
西部数码-全国虚拟主机10强!40余项虚拟主机管理功能,全国领先!双线多线虚拟主机南北访问畅通无阻!免费赠送企业邮局,.CN域名,自助建站480元起,免费试用7天,满意再付款! P4主机租用799元/月.月付免压金!

搜索引擎的难点包括如下几点:

1) 是否支持并发的爬取数据,如果要并发,要保证所有采集器能合作采集,不会出现重复采集的情况.

2) 采集的数据还要有一个排重的过程. 只需要采集一个网站更新的数据

3) 对于需要cookie数据的网页如何采集的问题,部分网站需要通过cookie数据登陆网站

4) 自动通过识别码的验证

5) 一些网站对于密集访问的请求会拒绝,技术上也要进行处理

6) 对于一些特殊网页的采集问题, 比如flash网页,一些游戏网页等,很多网站会让采集程序陷入其中,采集数万无效数据,显然是浪费了采集程序的精力

7) 大数据量的存储也是个难点,据说Google的存储是自己开发的架构,没用任何的数据库,因为数据库的查询效率还是有一定损失. 可以采用数据块的模式,然后通过散列表的模式连接.

以上主要列出的是后台采集器的相关技术难点,在前台检索、查询效率等方面仍有许多难点.

责任编辑:飞翔的鱼 QQ:35996213

文章整理:西部数码--专业提供域名注册虚拟主机服务
http://www.west263.com
以上信息与文章正文是不可分割的一部分,如果您要转载本文章,请保留以上信息,谢谢!