第二十章公司开始运作起来（1 / 3）_重生之自立帝国

江延和室友坐下以后，还是有源源不断的人前来参加招聘。

看着每个人进入到面试区出来后表情不一，有的兴奋的手舞足蹈，有的则是一脸的失望，江延突然觉得想加入这家公司可能也并不轻松。

整理了一下自身的情绪，江延又开始观察四周的环境和装修，发现虽然乘风公司刚刚成立不久，但是公司的装修和环境都不错，感觉还是很温馨。

等待了大概有半个小时左右，江延突然听到有人喊自己的名字，赶忙整理了一下衣服跟着被领入的面试的房间。

房间里面刘峰，洪艺艺，张小龙，方宇舟和马思武并肩坐着。

洪艺艺指了指江延面前的沙发说“坐下来讲话就可以了。”

江延局促不安的做了下来。

洪艺艺看着江延的简历问道“你的简历我看了一下，在学校的学习成绩一直很不错，听说你在上学期间自己做了一个爬虫程序是这样的对么？”

江延回答道“对，是我自己利用课余时间自己设计出来的。”

洪艺艺又继续发问到“那我问一下，如果让你重新设计一个爬虫程序，目的是抓取当前所有的互联网信息并且可以快速呈现出来你觉得你需要多久？”

江延小心翼翼的回答道“这个，这个我想应该需要很久，因为有很多东西需要攻克。”

其实刘峰看重的就是这个人有过做爬虫程序的这一点。

百度的核心技术其实就是earcher和dexer

earcher是直接与用户进行交互的模块，在接口上有多种实现的方式，常见的主要是eb方式。earcher通过某种接口方式，接受用户查询，对查询进行分词（steg）处理，获取查询关键字。通过dexer获取与查询关键字匹配的网页数据，经过排序后返回给用户。

searcher中的问题

检索结果的排序:

对不同的用户采用不同的排序策略。

排序结果排重

排重可以提高结果数据的质量。

检索结果的相似性分析

主要用在类似网页功能中，需要在索引结构中支持。

检索的速度

主要依赖索引结构的设计。同时在体系结构上还有很多技术可以用来提升速度。如:cache，负载均衡等。