知识库采用生成式人工智能时信任的重要性
技术写作者曾是信息守门人,GenAI兴起后,其非确定性影响可信度。技术写作者需提升内容质量、用高级LLM、展示来源、测试评估,以建立对生成响应的信任,制作适配GenAI的内容。
当前搜索趋势
基于“词法关键词”的搜索引擎会根据用户输入的关键词返回相关文章。因此,最终用户总是需要前往文章源获取他们所需的信息。
词法搜索示例
然而,在ChatGPT、Gemini、Claude等生成式人工智能(GenAI)技术引入后,情况发生了变化。现在,基于GenAI的搜索引擎正在接管语义搜索。
语义搜索示例
基于GenAI的智能体充当了最终用户与文档之间的接口。鉴于这项AI技术的生成性质,很难控制其为用户问题生成的响应内容!这影响了“可信度”!
当前GenAI的局限性
人工智能(AI)的特性在于其非确定性!这是技术实现中固有的。GenAI工具基于大型语言模型,这些模型旨在预测下一个词元(token,约等于3/4个单词)。
生成式AI工具根据用户问题生成响应,这些问题通常被称为“提示”。检索增强生成(RAG)架构用于补充大型语言模型(LLM)固有的知识空白。RAG方法可以提供更好的上下文和包含最新事实的内容,以帮助LLM针对输入提示生成更好的响应。生成响应的质量取决于:
- 提示的质量
- 内容的质量
- 底层LLM
提示的质量
提示的质量决定了生成响应的质量。如果提示模糊且包含歧义术语,可能会在RAG架构检索可能含有模糊信息的文章片段时造成混淆,从而导致生成缺乏事实依据、不准确的响应。
内容的质量
内容的质量决定了生成响应的准确性。如果内容编写不佳,会使LLM更难将提示与上下文关联并生成响应。内容结构应包含范围/目的、先决条件、操作指南、常见问题解答等,以便LLM能更好地推断所输入提示的上下文。关于该主题的所有细微差别都应在文章内容中详细涵盖。
底层LLM
用于生成响应的底层LLM在确保生成响应得到可信内容支持方面起着巨大作用。像ChatGPT-4、Claude和Llama 3这样的LLM功能强大,可以产生更准确的响应。如果未使用高级模型,LLM可能会产生“幻觉”问题,导致生成准确性较低或不符合事实的响应。为您的用例选择高级LLM涉及成本考量。
生成式人工智能的幻觉现象
幻觉指的是生成式人工智能产生的回答不符合事实。下图展示了当答案完全不在内容中或部分不在时,生成式人工智能必须针对提示生成正确回答。当生成式人工智能工具自信地编造偏离事实真相的内容时,我们就说它正在“产生幻觉”。由于幻觉是大型语言模型固有的特性,因此很难完全消除。在某种程度上,研究人员已经解决了底象限问题,以确保生成式人工智能能够根据内容的可用性产生准确的回答。
技术文档作者在建立信任中的作用
对于技术文档作者来说,更大的问题是现在生成式人工智能充当了他们的知识库与最终用户之间的接口。技术文档作者无法控制生成式人工智能来确保信任。鉴于生成式人工智能工具的概率性质,要产生确定性的回答需要更多工作。即使提示发生微小变化,也会显著改变生成的回答。更关键的问题是如何确保生成式人工智能工具值得信赖。有几种方法和新兴的最佳实践可以实现这一目标。它们是:
- 专注于内容质量,确保在知识库中不存在模糊内容。一个精心策划的业务术语表可以输入到生成式人工智能工具中,以更好地理解用户提示,从而获得准确的响应。
- 可以向最终用户展示用于生成响应的来源/引用文章列表,以便他们验证生成的响应。
- 利用领先生成式人工智能提供商提供的高级大语言模型。
技术写作者需要通过准备大量测试用例(问题及其标准答案)来评估生成式人工智能工具。然后,他们可以将生成的响应与标准答案进行比较,以计算可靠性、正确性和上下文相关性等指标。这有助于在将生成式人工智能工具投入生产时建立信任。
生成式人工智能的研究正在加速发展,幻觉问题消失只是时间问题。大语言模型正变得更加强大和多功能,拥有更长的上下文窗口。同时,大语言模型的成本正在降低,因此这项技术将普遍应用于我们使用的许多产品中。技术写作者的主要目标应该是利用良好的用户体验原则和更好的内容来建立对生成响应的信任,从而制作出更适合生成式人工智能的内容。