自 OpenAI 发布 ChatGPT 以来,这是令人兴奋的几个月。它被誉为下一个“iPhone 时刻”——一个有望彻底改变几乎一切的技术奇迹。我们进入 iPhone 时代才 16 年,很难想象你的生活中有哪一部分没有改变……而且几乎不可能想象没有它的生活。
有一连串的想象:ChatGPT 是有史以来最好的东西,是我们见过的最强大的人工智能,它将消除人们工作中的苦差事,让学生摆脱家庭作业。它将提高人们的生产力并提升创造力。我们永远不必再寻找——它会为我们完成所有工作!小心谷歌,因为搜索已经死了!微软有了 ChatGPT,他们把它放到了 Bing 中,这真是太神奇了。每个人都被迷住了,搜索解决了,人类抛弃了 Google,转而使用 Bing,Google 很快就倒闭了!
哦,不,等等,事情不是这样的。
LLM并不擅长搜索
每个人都大肆宣传的所有这些技术的基础是大型语言模型(LLM)。它是一个理解语言模式的模型——不是语言本身,而是语言模式。但它非常擅长这些模式,以至于它可以像你一样书写文本,可能更好。之所以称为生成式,是因为它每次都会生成新的、独特的文本。它对很多事情都很有效,但可惜,并不是一切。
LLM不擅长的事情之一就是搜索。这是因为搜索是关于检索——找到有关某个主题的信息。LLM则采用经过训练的内容并根据该训练创建生成响应。
有时LLM感觉像搜索,因为它呈现了一些经过训练的材料,但与搜索不同的是,它不是内容本身,而是该内容的不完美反映(最基本的是,它是基于概率创建的单词组合)。但如果LLM不擅长搜索,为什么微软和谷歌竞相将它们纳入自己的搜索产品中呢?
搜索为LLM提供动力
原因有很多,但最主要的原因是LLM带来了能够超越搜索的新功能,这意味着更多的眼球和更多的广告收入。当我们进入厂商的新“搜索”页面时,我们仍然可以搜索,但我们也可以让它写一封电子邮件、文章或诗歌(Bing 的“撰写”模式),进行对话(Bing 的“聊天”模式) 、编制一个列表,或者对我们编写的内容进行风格化。这些是LLM的主要能力,与搜索没有关系。
但是当我们进行搜索时,LLM可以通过获取结果并将其合成为易于阅读的摘要来增强搜索结果。将LLM应用于搜索的真正力量不是为了搜索本身,而是为了方便——将结果总结为简洁、易于阅读的格式。
通过这种方法,答案来自实时搜索的结果,LLM不回答查询,而是将多个答案总结为一个摘要。这比仅仅使用模型本身训练数据要好得多,因为要求LLM在其响应中仅使用搜索结果意味着答案是:
·当前的(与LLM相比,LLM在接受训练后就没有任何新知识)
·更专注、更高质量(相对于LLM,LLM通常是通用且不专注的)
·可追溯(摘要的部分内容可以链接回搜索结果的列表,而LLM则是一个黑盒模型)
·更准确(与LLM相比,它几乎没有可能导致幻觉的“杂散”信息)
搜索变得更重要,而不是更少
结合LLM能力,将使得搜索变得更加重要,因为LLM生成的摘要完全基于搜索结果。更好的搜索结果意味着更好的答案总结,垃圾输入意味着垃圾输出!
当人们从搜索结果列表过渡到期望方便的摘要时,搜索引擎的质量就是基础。这也是对LLM所产生内容进行事实核查的方法,摘要中提供的链接是指向搜索结果的链接。
上述原则同样适用于组织内的搜索——企业搜索。企业都期望从所有内容中检索最准确和相关的结果,无论其来源、格式或语言如何。这种能力比以往任何时候都更加重要,通过搜索和LLM的结合,能够创造出最新的、有针对性的、可追溯的和准确的东西。以这种方式使用搜索来提供生成模型可以增加便利性并缩短信息收集过程,同时显着降低产生幻觉的风险。
LLM和KG增强的企业搜索应用
比如,我们将LLM、知识图谱以及传统搜索能力有效融合,以LLM实现面向用户查询的理解和对来源数据存储的查询转换,以非侵入式查询文档、数据库、知识图谱,并生成答案摘要,可以高效激活企业存量知识内容生产力。
我们相信,检索增强生成应用的未来是利用结构化和非结构化数据来生成准确的答案。因此,知识图谱KG是一个完美的解决方案,因为它可以存储结构化和非结构化数据,并通过显式关系将它们连接起来使其更易于访问和查找。
当知识图谱包含结构化和非结构化数据时,搜索工具可以利用Cypher查询或向量相似度搜索来检索相关信息。在某些情况下,还可以结合使用两者。例如,可以从 Cypher 查询开始来识别相关文档,然后使用向量相似性搜索来查找这些文档中的特定内容。
总的来说,我们仍处于了解像 ChatGPT 、Bard、ChatGLM等LLM如何影响人类与信息交互、如何工作、甚至如何生活的早期阶段。虽然现阶段它们还不能替代搜索,但它们可使搜索更加方便和高效。
暂无评论内容