第二十章 公司开始运作起来(1 / 3)

江延和室友坐下以后,还是有源源不断的人前来参加招聘。

看着每个人进入到面试区出来后表情不一,有的兴奋的手舞足蹈,有的则是一脸的失望,江延突然觉得想加入这家公司可能也并不轻松。

整理了一下自身的情绪,江延又开始观察四周的环境和装修,发现虽然乘风公司刚刚成立不久,但是公司的装修和环境都不错,感觉还是很温馨。

等待了大概有半个小时左右,江延突然听到有人喊自己的名字,赶忙整理了一下衣服跟着被领入的面试的房间。

房间里面刘峰,洪艺艺,张小龙,方宇舟和马思武并肩坐着。

洪艺艺指了指江延面前的沙发说“坐下来讲话就可以了。”

江延局促不安的做了下来。

洪艺艺看着江延的简历问道“你的简历我看了一下,在学校的学习成绩一直很不错,听说你在上学期间自己做了一个爬虫程序是这样的对么?”

江延回答道“对,是我自己利用课余时间自己设计出来的。”

洪艺艺又继续发问到“那我问一下,如果让你重新设计一个爬虫程序,目的是抓取当前所有的互联网信息并且可以快速呈现出来你觉得你需要多久?”

江延小心翼翼的回答道“这个,这个我想应该需要很久,因为有很多东西需要攻克。”

其实刘峰看重的就是这个人有过做爬虫程序的这一点。

百度的核心技术其实就是earcher和dexer

earcher是直接与用户进行交互的模块,在接口上有多种实现的方式,常见的主要是eb方式。earcher通过某种接口方式,接受用户查询,对查询进行分词(steg)处理,获取查询关键字。通过dexer获取与查询关键字匹配的网页数据,经过排序后返回给用户。

searcher中的问题

检索结果的排序:

对不同的用户采用不同的排序策略。

排序结果排重

排重可以提高结果数据的质量。

检索结果的相似性分析

主要用在类似网页功能中,需要在索引结构中支持。

检索的速度

主要依赖索引结构的设计。同时在体系结构上还有很多技术可以用来提升速度。如:cache,负载均衡等。

相关核心技术

分布式技术

当搜索引擎处理数据达到一定规模时,为了提高系统的性能,必须采用分布式技术。craler通过多个服务器互相合作,提高数据采集的速度。dexer在生成索引数据时通过并行算法,在不同机器上同时进行。searcher也可以在不同的机器上进行同时查询,提高速度。

这两样技术其实说白了就是爬虫程序,通过爬取互联网中有效的信息进一步呈现给用户出一个相信的结果。

刘峰觉得江延能在学生时期就能自己设计出一个爬虫程序还是很优秀的人才,于是便开口道“肯定不是让你一个人去做,我会招聘十个人左右,你们的任务就是开发出一个成熟的搜索引擎,你的面试通过了,明天就可以来上班了。”

离开的江延还是处于一脸懵逼的状态。

什么跟什么?这就通过了?

显然眼前的少年还并没有发现自己的技术有多么的高深之处,其实在当时的那个年代,有技术的大拿并不在少数,但是他们或多或少的缺少一些眼光而已,他们并没有发现自己的技术有什么发展的前景和前途。

这也就导致后世的一些软件成长为知名企业时,总有一些人暗地里郁郁寡欢,想到当时这种技术自己也可以写出来啊。

千里马常有,而伯乐不常有。

而刘峰,偏偏就是在这个年代最有眼光的