你有需求? 点击这里 尝试让 AI 为你生成Baklib调研方案!

Baklib Logo

什么是 LLMs.txt ?

  浏览:174 巴克励步

LLMs.txt是为LLM驱动搜索引擎设计的Markdown格式文件,含网站内容及元数据,助其生成响应并带回链。可通过插件、商业工具或CMS生成,未来或成GenAI时代常态。

什么是 LLMs.txt ?

大型语言模型驱动的搜索引擎正在兴起并日益流行。数百万用户正在使用诸如Perplexity.ai、ChatGPT网络搜索等工具。Gartner预测,到明年搜索引擎流量将下降25%。现代用户正在放弃基于关键词的传统搜索引擎,转而偏好类似ChatGPT的界面,这种界面能够准确回答他们的问题。这对传统的做法(例如搜索引擎优化)造成了冲击,因为全球搜索量预计将大幅下降。

为了帮助LLM驱动的搜索引擎更好地利用内容,有人提出了一项提案,建议将所有内容以Markdown格式保存在一个名为llms.txt的单一文件中。鉴于新的大型语言模型具备更大的上下文窗口,LLM驱动的搜索引擎可以在运行时摄取和处理这些LLMs.txt文件,而无需解析网站内容。这个llms.txt文件可以像robots.txt和sitemap.xml一样,作为您网站根目录结构的一部分添加。

什么是 LLMx.txt ?

llms.txt 是一种新兴的约定,它向 AI 爬虫指示您网站的哪些部分是为 LLM(生命周期管理)而设计的。您可以将其视为网站的 robots.txt 文件,但它是专为 LLM 设计的:它指向规范文档、结构化导出、站点地图和便于抓取的资源。

这有什么用呢?它可以生成对人工智能友好的提示,让语言学习管理系统(LLM)优先考虑权威、最新的信息来源。这不仅能提高人工智能助手的回答质量,还能降低导入过时或重复页面的风险。

llms.txt 文件长什么样?

示例:Markdown

# My Project Name
> 这是一个专门用于展示如何使用 X 框架的文档站点。

这里包含所有核心 API 和入门教程,适合 AI 快速理解本项目。

## 核心资源
- [快速入门](https://example.com/docs/intro.md): 5分钟上手指南。
- [API 参考](https://example.com/docs/api-full.md): 完整的接口文档。

llms.txt 与 llms-full.txt

在该规范中,通常会提到两个文件:

  1. /llms.txt目录索引。类似于精简版的地图,告诉 AI 哪些页面最重要,并附带简短描述。

  2. /llms-full.txt全集文件。这是一个将全站(或整个文档库)的核心内容合并在一起的长 Markdown 文件,方便 AI 一次性读取全部背景知识(Context)。

LLMs.txt的用途

llms.txt文件的主要目的是为LLM驱动的搜索引擎提供商提供对LLM友好的内容。考虑到这些提供商必须使用网络爬虫或机器人定期扫描您的网站内容,解析内容,格式化并存储以供检索,这一过程存在许多浪费,例如:

  • 存储成本

  • 因解析内容时间增加而导致服务客户的延迟增加

  • 内容可能不是最新的,因此需要持续的资源池化

这也给内容管理系统供应商和网站管理员带来了压力,要求他们的基础设施能够扩展到网络爬虫和机器人。

为了帮助基于大型语言模型的搜索引擎提供商有效使用您的内容,llms.txt文件以大型语言模型友好的Markdown格式提供您所有的内容以及其他元数据。这有助于您的内容在生成的响应中被使用,从而获得一个指向您网站的回链。

如何生成 LLMs.txt

Vitepress 插件提供了一个开箱即用的工具包,可以从您的网站或文档站点内容生成符合 llms.txt 规范的 llms.txt 文件。有一些商业工具可以在您提供网站URL后生成 llms.txt。一些文档和内容管理系统提供商除了提供 sitemap.xml 外,也提供 llms.txt 文件。

llms.txt 的真正价值在于当 LLM 驱动的搜索引擎在推理时使用其内容。这意味着,一旦客户输入一个提示,就会查询 llms.txt,并可以利用来自您网站或文档站点的内容生成有效的响应。鉴于许多 LLM 支持数百万的标记,LLM 驱动的搜索引擎会在上下文窗口中加载您整个 llms.txt 文件的内容,并用其生成响应。同时,它还可以生成指向网站或文档站点中正确文章来源的引用。这有助于客户在需要时交叉验证答案。一旦客户点击引用链接,LLM 驱动的搜索引擎会附加 UTM 参数(例如来源,如下图所示)。这些参数会被 Google Analytics 捕获并显示为 AI 流量。

随着现代客户涌向AI 驱动的搜索引擎,品牌必须通过从其站点提供可信信息,并利用这些信息为其网站或文档站点引流,来提升自身的可见度。

llms.txt 文件会在新内容创建、旧内容更新或内容删除时立即更新。这有助于 AI 驱动的搜索引擎获得更多价值,并以最低的延迟为其客户提供高精度的响应。

llms.txt 的采用速度缓慢。一些文档平台供应商和内容管理系统提供商将 llms.txt 作为其产品服务的一部分提供给客户。这个 llms.txt 并未获得 W3C 或其他任何网络标准社区的认证。目前也不清楚人工智能驱动的搜索引擎在推理时是否使用 llms.txt。由于缺乏来自大语言模型搜索引擎提供商的分析工具包,许多网站管理员和文档团队无法衡量提供 llms.txt 文件的采纳情况。通过 llms.txt 进行归因量化也更困难,因为只有来源被附加在 URL 参数中。大语言模型搜索引擎提供商需要提供更多信息和激励措施,以帮助网站所有者提供其完整的 Markdown 格式内容。

缺乏类似于 Google Search Console 的产品,意味着为 GenAI 时代优化内容至关重要。llms.txt 是向大语言模型提供准确和最新内容的前进方向,因为客户依赖在短时间内找到准确的答案。

llms.txt 在 GenAI 时代的未来

大语言模型搜索引擎提供商正在快速创新并提供更多服务。分析和归因的缺失将很快得到解决,因此 llms.txt 将成为 GenAI 世界的常态。随着客户使用大语言模型搜索引擎的趋势增加,以及智能体工作流程的扩展,llms.txt 将在现代网络中扮演不可或缺的角色。

LLMx hub

https://llmstxthub.com/

这是最大的 AI 就绪文档和工具目录,这些文档和工具实现了拟议的 llms.txt 标准。你可以在这里提交你的网站 LLMx.txt 文件,方便收录和外部分发。



Baklib数字内容体验云是一个综合的技术平台,它集成了多种工具、技术和能力,以帮助企业实现跨多个数字渠道和触点的一致、个性化的用户体验。平台分为三个功能模块:资源库、知识库和应用库。 Baklib 运行在 Ruby on Rails 框架上,Ruby on Rails是用 Ruby 编程语言编写的开源 Web MVC框架,它附带了在前端和后端构建现代的 Web 应用程序所需的所有工具。

Baklib Birds
to top icon