[2009年阿里巴巴搜索研发类笔试试题]试卷分三部分 1.ja 2.搜索 C++(这2个为什么要混在一起?) 3.公共(都要做) 我做的是B卷、搜索研发类,只记得其中的一部分内容(都是关键字,实在记不全所有的内容了。。。。。) B卷 基本...+阅读
C++:1.关于DOM的描述;2.网络蜘蛛系统;3.UTF-8;4.数据库检索:查准率和查全率;5.索引压缩;6.设计cralwer;7.Trie树查询;8.HTML协议;9.信息检索模型;10.分布式通信协议;11.分布式搜索引擎;12.双向循环链表;13.快速排序;14.32位系统。
关于DOM的描述:
jascrip里面的dom(文档对象模型)它是一种模型,将格式化文档对象化处理。在xml和html 的处理中广泛应用。 dom是定义超文本结构的对象及方法,分层次的,有容器类的对象,也有基本元素对象,而这些对象,都包含有相应的属性和对应的操作方法(接口)。
一般而言,DOM结构准确地反映了HTML文档所包含的内容,也就是说,每个HTML标记表现为一个标记节点(tag node),每个文本项内容表现为一个文本项节点(text node)。 是W3C组织推荐的处理可扩展置标语言的标准编程接口。
2. 网络蜘蛛系统
网络蜘蛛即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。
对于搜索引擎来说,要抓取互联网上所有的网页几乎是不可能的,从目前公布的数据来看,容量最大的搜索引擎也不过是抓取了整个网页数量的百分之四十左右。这其中的原因一方面是抓取技术的瓶颈,无法遍历所有的网页,有许多网页无法从其它网页的链接中找到;另一个原因是存储技术和处理技术的问题,
在抓取网页的时候,网络蜘蛛一般有两种策略:广度优先和深度优先(如下图所示)。广度优先是指网络蜘蛛会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。这是最常用的方式,因为这个方法可以让网络蜘蛛并行处理,提高其抓取速度。深度优先是指网络蜘蛛会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。这个方法有个优点是网络蜘蛛在设计的时候比较容易。两种策略的区别,下图的说明会更加明确。
在网络蜘蛛机器人系统里面,真正起指挥作用的是人工管理系统制定的规则和检索索引数据库。它可以决定什么样的网站抓的勤一点,或者干脆不抓.
3. UTF-8
使用UTF-8编码唯一的好处是,国外的用户如果使用Windows XP英文版,浏览UTF-8编码的任何网页,无论是中文、还是日文、韩文、阿拉伯文,都可以正常显示,UTF-8是世界通用的语言编码,UTF-8的推广要归功于Google的应用,以及Blog开发者。而如果用Windows XP英文版的IE6.0浏览gb2312语言编码的网页,则会提示是否安装语言包。因此,可能会失去很多的国外浏览者。 使用gb2312编码的好处是,因为程序产生的网页文本使用ANSI编码格式,会比UTF-8文本编码节省一些体积,访问速度会稍微快一点点,大约是30:38的比例,也就是30K的ANSI编码,转为UTF-8编码是38K,当然,这个比例并不准确,是会随Unicode字符集区域的不同而变化的。
延伸阅读:
阿里巴巴2008笔试题统计客观题考点: c++:1.DOM的描述;2.网络蜘蛛系统;3.UTF-8;4.分布列(概率中的数学期望)4.数据库检索:查准率和查全率;5.索引压缩;6.cralwer速度的影响;7.信息熵量大小的影响;8.Trie算法的最...
阿里巴巴非技术类笔试题前几天收到了阿里巴巴笔试的通知,第二天早上5点多就起来,赶车去参加阿里巴巴非技术类的笔试,笔试地点在电子科大,时间上早上八点。 网上一直都没有阿里巴巴笔试的经验,所以今晚给...
阿里巴巴笔试记考点(不分先后次序):C++:1.关于DOM的描述;2.网络蜘蛛系统;3.UTF-8;4.数据库检索:查准率和查全率;5.索引压缩;6.设计cralwer;7.Trie树查询;8.HTML协议;9.信息检索模型;10.分布式通信协议;11....
阿里巴巴技术类笔试题Question 1. (单选) 在60年代初石油危机的时候,美国总统肯尼迪要求美国石油公司不要将石油的价格提得太快,但是美国石油公司拒绝了肯尼迪的要求。因此,肯尼迪总统在记者招待会...
阿里巴巴笔试题目我是华南农业大学电子信息工程的03级的学生,转眼间我的毕业生求职生涯已经接近尾声了,在这半年多来来,我感慨良多。到目前为止,我在chinahr和51job上投过的简历达到了120份,给...
阿里巴巴搜索研发类笔试题目试卷分三部分 1.ja 2.搜索 C++(这2个为什么要混在一起?) 3.公共(都要做) 我做的是B卷、搜索研发类,只记得其中的一部分内容(都是关键字,实在记不全所有的内容了。。。。。) B...
阿里巴巴面试经历这是我当时比较满意的一个OFFER,因为公司很有发展前途,还有配股。笔试~~技术面~~HR面。笔试我是霸王笔的,感觉小半JAVA,大半C++,最后有两条C++的编程题,只有一道比较有把握。想不...
阿里巴巴笔经阿里巴巴笔经 我想大家最为关心事,是今天阿里巴巴的笔试吧。今天我参加的是工程师的笔试,前面几天考的是智力测试,量不大,好像有5题吧。最好先去做做公务员的试题,对以后像这样的...
阿里巴巴面试经验分享这个是我真实的阿里巴巴面试经历。阿里巴巴这个公司想必大家都知道,无论哪个专业的同学。我爸爸妈妈这一辈都还认识马云呢,爷爷那一辈就只认识毛主席了,呵呵。不知道是马云是成...