搜索引擎的智能化对于百度、360、搜狗无疑是巨大的技术更新

04-14 15:32 好宝宝网站收录 1

总体而言,搜索引擎面临以下挑战。

1、页面爬行需要快速且全面  

互联网是一个动态的内容网络。每天,无数的页面被更新和创建,无数的用户发布内容并相互交流,要返回到有用的内容,搜索引擎需要抓取新的页面,但是由于页面数量巨大,搜索引擎蜘蛛需要很长时间才能更新数据库中的页面一次。当搜索引擎诞生时,捕获和更新周期通常以月为单位进行计算,这就是为什么谷歌在2003年之前每个月都有一个大的更新。

现在主流的搜索引擎已经能够在几天内更新重要的页面,并且在几小时甚至几分钟内将包括在高权重网站上的新文档。然而,这种快速的包含和更新只能局限于高权重的网站,许多页面在几个月内没有被重新爬行和更新也是很常见的。

为了返回比较好的结果,搜索引擎还必须尽可能全面地抓取一个页面,这需要解决许多技术问题,有些网站不利于搜索引擎蜘蛛爬行和爬行,如网站链接结构的缺陷、Flash、Java脚本的广泛使用,或者用户在访问该部分之前必须登录的内容,都增加了搜索引擎爬行内容的难度。

2、海量数据存储

一些大型网站在一个网站上有数百万、数千万、甚至数亿的页面,你可以想象网络上所有网站的页面加起来有多少数据,搜索引擎蜘蛛抓取页面后,还必须有效地存储这些数据,数据结构必须合理,具有很高的可扩展性,对写入和访问速度的要求也很高。

除了页面数据,搜索引擎还需要存储页面之间的链接和大量的历史数据,这是用户无法想象的。据估计,百度拥有340多万台服务器,谷歌拥有数十个数据中心和数百万台服务器,这种大规模的数据存储和访问不可避免地会面临许多技术挑战。

我们经常在搜索结果中看到排名上下波动,没有明显的原因,我们甚至可以刷新页面并查看不同的排名,有时,网站数据也会丢失,这可能与大规模数据存储和同步的技术难点有关。

3、索引处理快速、有效且可扩展

在搜索引擎对页面数据进行爬行和存储后,还需要进行索引处理,包括链接关系计算、正向索引、反向索引等。由于数据库中的页面数量庞大,执行pr等迭代计算既费时又费力,为了提供相关及时的搜索结果,只需抓取是没有用的,同时也需要做很多的索引计算,因为在任何时候都会添加新的数据和页面,所以索引处理也应该具有良好的可伸缩性。

4、快速准确的查询处理是普通用户能看到的搜索引擎步骤

当用户在搜索框中输入一个查询并单击“搜索”按钮时,他通常会在不到一秒钟的时间内看到搜索结果。简单的表面处理实际上涉及非常复杂的背景处理。在后的查询阶段,比较重要的问题是如何在不到一秒钟的时间内从数、数百万甚至数千万个包含搜索词的页面中快速找到比较合理、相关的页面,并根据相关度和权限进行排列。

5、判断用户意图和人工智能  

应该说,搜索引擎的前四个挑战已经能够更好地解决,但是对用户意图的判断还处于初级阶段。不同的用户搜索相同的查询词,可能会查找不同的内容。例如,在搜索“苹果”时,用户是想知道苹果的果实,还是苹果电脑,还是想知道电影“苹果”的信息?或者他想听“苹果”?没有上下文,没有对用户的个人搜索习惯的理解,他就无法判断。

搜索引擎目前正在根据用户的搜索习惯、历史数据的积累和语义搜索技术来判断搜索意图、理解文档的真实含义和返回更相关的结果。

免责声明

任何关于疾病的建议都不能替代执业医师的面对面诊断,请谨慎参阅。本站不承担由此引起的法律责任。

本站上所有内容均出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。

您可能需要
热门网站
  • 百度网盘
    百度网盘为您提供文件的网络备份、同步和分享服务。空间大、速度快、安全稳固,支持教育网加速,支持手机端。注册使用百度网盘即可享受免费存储空间。
  • 网易体育
    体育,体育频道,包含体育新闻,NBA,CBA,英超,意甲,西甲,冠军杯,体育比分,足彩,福彩,体育秀色,网球,F1,棋牌,乒羽,体育论坛,中超,中国足球,综合体育等专业体育门户网站
  • 中国财经网
    以“中国财经”、“中国财经APP”、中国财经双微等为核心业务平台,实现多屏互动,重点关注宏观经济、金融、证券、上市公司、房产、科技等领域,为用户提供时效、专业、全面的财经信息及综合类服务。
  • 飞猪
    飞猪是阿里巴巴旗下的综合性旅游出行服务平台。飞猪整合数千家机票代理商、航空公司、旅行社、旅行代理商资源,直签酒店,客栈卖家等为广大旅游者提供特价机票,酒店预订,客栈查询,国内外度假信息,门票购买,签证代理,旅游卡券,租车,邮轮等旅游产品的信息搜索,购买及售后服务。全程采用支付宝担保交易,安全、可靠、有保证。
  • 武汉大学
    武汉大学(Wuhan University),简称武大(WHU),位于湖北省武汉市,是教育部直属的综合性全国重点大学, 中央直管高校,国家首批“双一流”、“985工程”、“211工程”重点建设高校。入选“101计划”、英才计划、国家建设高水平大学公派研究生项目,为医学“双一流”建设联盟、欧亚-太平洋大学联盟、中英高等教育人文联盟成员,长江中游城市群“双一流”高校联盟理事长单位。 武汉大学溯源于1893年清末湖广总督张之洞奏请清政府创办的自强学堂,历经传承演变,1928年定名为国立武汉大学,是近代中国第一批国立大学。 1960年被确定为全国重点综合性大学,1995年被确定为国家“211工程”重点建设高校。2000年武汉大学与武汉水利电力大学、武汉测绘科技大学、湖北医科大学合并组建新的武汉大学,2001年进入国家“985工程”重点建设高校行列,2017年入选国家“双一流”建设高校。
  • 简书
    简书是一个优质的创作社区,在这里,你可以任性地创作,一篇短文、一张照片、一首诗、一幅画……我们相信,每个人都是生活中的艺术家,有着无穷的创造力。
  • 301解放军总医院
    中国人民解放军总医院(301医院)创建于1953年,是集医疗、保健、教学、科研于一体的大型现代化综合性医院,直属于中国人民解放军联勤保障部队。医院是中央重要保健基地,承担军委、总部等多个体系单位、官兵的医疗保健和各军区、军兵种转诊、后送的疑难病诊治任务。医院同时又是解放军医学院,以研究生教育为主,是全军唯一一所医院办学单位。
手机号码吉凶查询网