现场图片4

创界注:知乎上有一个这样的问题:为什么知乎的搜索功能如此之烂?回答中获得支持最多的是一名搜狗搜索工程师的回答。在知乎上,关于知乎的站内搜索功能为什么烂的讨论从来就没有停止过,相信知乎的技术团队早就意识到了这个问题。因此在11月8日,知乎和搜狗正式达成了一项名为“优质内容X智慧搜索”的合作。据介绍,合作后,知乎将接入搜狗多年经验积累的搜索技术,改进知乎的站内搜索体验;另一方面,搜狗也会在其搜索结果页中展示来自知乎的优质回答内容。

现场图片4

以下为本次发布会演讲实录,由创界(微信号:ChuangDaily)整理:

搜狗搜索掌舵人茹如云:大家好,我是搜狗的茹如云,在整个发布会开始之前,大家都在猜测搜狗跟知乎到底要做什么样的事情?今天我和李申申站在一起,跟大家一起来说说我们做的那些事。

知乎联合创始人李申申:今天在现场有一些媒体朋友也是知乎的用户,你们应该也会在知乎上搜一些感兴趣的话题,在这些问题下面看看知乎上面各行各业的从业者他们有什么样的专业的观点和判断。我相信你们对知乎搜索应该也有发言权,我不知道想讲的是不是跟我们收集到的一些用户的反馈是类似的,我们可以先看一下知乎上面的用户怎么说知乎搜索?这个问题上面,我们一直想做的更好,就像刚才说的搜狗搜索确实是需要非常长期积累的。搜索是搜狗的强项,你详细的透露一下搜狗的智慧搜索具体是怎么实现的?

茹如云:用户在知乎上去吐槽知乎搜索不好用,这可能是一个现象,我经常举一个例子,搜索技术是计算机科学技术最顶尖的应用,在全球范围内能事制造核弹的国家是非常多的,比如说像朝鲜都有。商业搜索引擎的国家只有4个—美国、中国、俄罗斯、韩国,基本上也是综合实力最强的,做好搜索并不是简单的事情。搜狗是有了11年的积累之后,才把这个搜索技术做到今天这个地步,这不仅锤炼了一支经验丰富的技术团队,另外一方面,不断在搜索技术进行钻研。

大家做到一个好的搜索或者说做到智慧搜索,基本上具备这四个方面,第一个在系统架构层面,我们去响应用户的海量请求;第二方面,全网数据积累与挖掘;第三个,用户使用搜狗的时候,并不知道互联网上有什么内容,所以怎么样理解用户背后的信息,可能是很难的事情。网络化运营可能是同义词,所以对用户的需求怎么做分析,这也是积累上把它做好;第四,结果匹配。以前最早的基础算法到现在进行深度学习,通过这四块技术使用才使得搜狗的搜索结果能有像现在这么好,这也是搜狗这么多年一直在积累和突破的方向。

通过深度学习和自然语言的理解,我们能够更好地,能够更深入的读懂用户输入的查询背后真正的需求,并给出良好的搜索结果。

除了一般的文本搜索之外,语音和图像这个领域也是非常强的。在2012年的时候,特别火的搜索就是语音助手,搜狗当时是国内第一家提出基于语义理解的语音助手,根据第三方的检测数据,搜狗在整个语音识别上的项目是最高的,无论是在聊天、地图、还是在搜索、购物等方面。现在,我们的语音识别引擎每天都要处理上亿次的语音识别请求。

李申申:搜狗搜索在技术方面的实力在这次产品合作中我们也是深有体会的,您给大家介绍一下我们是怎么做的?

茹如云:这次合作对搜狗来讲,也是尝新性的合作,两个公司怎么样把我们的积累的技术,能够支撑到我们的合作伙伴领域里,我们也是利用之前的技术积累,为知乎的兄弟们定制了一套专属于他们的搜索引擎,我们内部组建了专门的项目团队,这个团队会把之前搜狗所拥有的成熟的技术用到知乎的解决方案里面去;第二个,也是基于知乎社区设计所独有的技术特性,和他们所对应的技术优化,两个团队最终磨合在一起,差不多用了短短三周时间,就把知乎搜索作为一个升级方案就上线了。

说到这次技术的具体使用,首先把搜狗的几个方面成熟技术用在知乎上,比如说大数据挖掘、机器学习排序,这些技术的使用马上提高了知乎的搜索体验。第二方面,我们也注意到,知乎作为社区的特点,深度挖掘问答质量,用户回答的质量,与用户间的社交关系等等,把这些特性有机融合到知乎的搜索结果里面,并且我们后续会根据用户使用知乎搜索的行为,再去做自学习,让知乎的搜索越来越好做个性化的搜索。

李申申:搜狗技术确实是很棒,这次改进上线以后我们做了评测,几乎搜索DCG评测从之前的0.39也提高到了0.64,提升幅度还是很大的。DCG评分用来评测搜狗引擎的评测效果,可能大家对于评分的提升不太有感觉,下面我会用一些具体的例子,来说明一下它具体在用户体验上有哪些变化。

这次我们的搜索改进主要在三个方面,有了一个长足的进行。第一个,自然语言处理能力比之前有了大的提升;第二,我们有更优化的排序算法。第三个,我们引入了更强劲的机器学习模块,让知乎搜索拥有了自模式的学习。

下面我给大家做一个演示,大家在搜索的时候,应该都会遇到这样的情况,你想搜一个词,但是你想不出那个词怎么写,可能你就直接输拼音了,或者你输一个词就会有疏漏,比如说我们现在像搜索跟微软相关的信息,在之前的知乎搜索如果你少输了一个字母,出来的内容条目是零。我们试一下现在经过改进的搜索是什么样的情况?我们看到随着少输了一个字母,但是依然排在前面的这些内容都可以找出来跟微软相关的优质信息,排在第一位的问题,拥有近4千人的关注,拥有65个回答,这其中是拥有着质量很高的内容,在这方面有明显的进步。

我们平时在输入一些话语关键词的时候,经常会输入比较复杂的,如何面对焦虑依恋人格,如果搜索引擎处理不好,就有可能搜到一些跟人格有关的,跟依恋有关的内容,其实我想搜的是特定的词,我在这里给大家做个演示。我们能看到,现在已经把跟这个特定的词,相关的内容已经排列出来了,第一条内容显然是我找的。

有的时候我们要表达一个意思,有不同的表达方式,不如刚才说的我们想说要学习粤语,学习广东话,这中间有很多的表达方式,比如说怎么学广东话、如何从零学广东话、我是北京人如何学广东话,其实都在表达一个意思。在过去的知乎搜索如果你要输入一个“怎么样学广东话”,出来的基本上是跟广东话这个词匹配的内容,其实我找的是这个意思的内容,我在这里再给大家做一个演示,它把我要想找的这类意思内容排到了前列,排序的第一个内容跟第二个内容是不太一样的,第二条内容会有更多的人来关注,也有更多的回答。这里我要说的是,除了刚才说的自然语言处理的能力提升,其实在算法上我们也做了优化,在跟你关键词匹配的相关度以及词的本身有重要的权衡。我们在这个地方有一个比较大的提升。

我想搜一下知乎上面跟Hackathon(黑客马拉松)相关的内容,应该是不太容易找到这类内容,我们看到大屏幕上是之前的情况,排在前面的有一个是一个问答,有一个是零问答,但实际上知乎上面有非常好的内容。首先它把话题给我,它也给了我优质内容的问题。

我估计大家会遇到这种场景,就是你看到一个好内容,但是忘记是哪个用户回答的,但是你记得你关注过他,特别是知乎上面优秀的回答者非常多,从零的用户也非常多。知乎上有一个问题叫做“如何优雅的吃方便面”,这个问题当时一位很不错的回答者,我当时就想在知乎上找这么一个人,我只记得他名字的开头SYSY,但是找不到,因为在知乎上面这个名字非常多。新的搜索能够帮助我快速的找到他,排在第一位就是他写的如何优雅的吃方便面。

我们能看得到,我刚才举的几个例子,很多搜索其实效果有了极大的提升,简单地说,用户在搜索的时候,好的答案会排在前面,你关注的人和话题相关的内容也会排在前面,但这中间会基于关键词的相关度有一个权衡。这次我们引入了新的机器学习模块,我们会根据不同用户在不同关键词下面的点击情况,他喜好的程度会更好的调整排序,搜索的排序和搜索的结果都会有一些不同,最终我们做到的尽可能符合用户的搜索预期。

茹如云:刚才看你提到一些数据,DCG评测指标从0.39提升到了0.64,这其实在整个搜索引擎行业,一个非常大的提升。知乎定制站内搜索系统,为知乎高要求的用户,提出他们的解决方案,能够让他们满意,这是我觉得非常荣幸的事情。

李申申:想让知乎的用户满意确实不是一件容易的事,这次我们改进是对知乎搜索整个底层引擎的全面提升,其实不管是PC端还是移动端,一些相关的功能,相关的服务,他们都会直接受益,使用到搜索接口的服务,其实都会有一个体验上的提升。我相信大家会在多方面都会有很多的体验。

我可以给大家讲几个相关的例子。首先在知乎上搜索,显然是想针对一个问题找到你想要的答案,好的搜索毫无疑问会提升你找到内容的概率,降低你寻找内容的成本,其实更快的可以找到答案。

在知乎每一次提问都会伴随着一次搜索,在你的提问前都会进行一次搜索的行为。一个好的搜索可以让你尽快的找到答案,而不需要再重复的提问题,可以提升提问率,可以让大家更集中在关键问题上进行交流。知乎有一个功能是“邀请回答”,如果在知乎上找不到你想要的答案,你可以寻找知乎上专业的用户来帮助你,一个好的搜索可以让你更容易找到他们。所有的这些,总体都会使得我们在同样的问题下,可以聚集更多的对此感兴趣的人,产生更多意义的讨论,以及观点的创造,在这样的聚焦下,对一个问题感兴趣的人,他们会更容易产生互动,所有的知识、经验、见解都将会更完整,这些切实的改变其实都是基于搜狗搜索。

这次合作另外一个意义也非常重大,因为会直接影响到搜狗搜索的5亿用户。

本文为创界(公众号:ChuangDaily)原创

欢迎关注创业第一新媒体创界微信:ChuangDaily

qrcode_for_gh_ab4fd7bc5d27_430 (2)

要发表评论,您必须先登录