AIV、AIR、AIS 三个指标有什么区别？

AIV 看“有没有出现”，AIR 看“有没有给到你的引用来源”，AIS 看“你在竞品对比里占多少答案份额”。三者依次更接近业务竞争态势。

什么算“引用”？必须带链接吗？

建议先定两档口径：严格口径：来源卡/引用列表里出现你的域名/页面（最可审计）宽松口径：只出现品牌名也算（适合品牌监测，但更易误判）

Golden Set 应该选多少问题？

起步 20–50 个，足够支撑周报；成熟后可扩展到 100–200，并按主题/意图分层。

为什么要记录“是否登录/是否个性化/地区/语言”？

因为这些变量会显著影响答案。你不记录，就无法区分“平台波动”与“你变好了”。

如何衡量“说对你”而不是“夸你”？

用质量层指标：关键事实字段正确率、证据命中率、过期率、边界是否被保留。不要用“主观好听”替代“可核验正确”。

AI 引用第三方多、引用官网少，怎么办？

通常不是“内容不够长”，而是缺少“可引用资产”：事实页/证据页/对比页/可定位段落锚点。先把这些做成首方证据接口，再谈份额。

业务层怎么对账？零点击越来越多怎么办？

做“必须点资产”：对比表、模板、计算器、试用、报价、下载。并用事件埋点把“答案→站内行为”串起来。

多久能看到变化？

不要用“单次抽检”判断，至少用 4–6 周周度回归看趋势，并同步记录平台侧产品变化（否则容易误判）。

AI 可见度监测与评价指标：用 AIV/AIR/AIS 把「答案份额」做成可审计的 GEO 周报

Q: 什么算“引用”？必须带链接吗？

建议先定两档口径： 严格口径：来源卡/引用列表里出现你的域名/页面（最可审计） 宽松口径：只出现品牌名也算（适合品牌监测，但更易误判）

适用：增长/SEO/GEO 负责人、内容运营、数据分析、品牌公关、产品与技术团队

目标：把“被引用”从截图汇报，升级为 可复现、可对账、可纠错 的运营系统

结论先行

想把 GEO 做成稳定能力，核心不是“多发文章”，而是先把 指标口径 与 监测方法 固化：用 Golden Set（固定问集回归）持续抽检多引擎答案，并用 AIV/AIR/AIS + 正确率/证据命中/首方来源占比/追问覆盖/修复时延建立可审计周报。

只要你能做到“出现了（可见）、说对了（可信）、能承接（可转化）”，答案份额就会从偶然变成可运营结果。

这篇文章给你一套可直接照做的：指标字典 + 数据采集表 + 周报模板 + 异常 SOP。

Key Takeaways

先定口径再上工具：没定义“提及/引用/正确”的边界，任何上升下降都不可审计。
三层 KPI 更稳：可见性（Visibility）→ 质量（Quality）→ 业务（Business），层层可验收。
AIV/AIR/AIS 只是起点：真正让团队可行动的是 正确率、证据命中率、首方来源占比、追问覆盖率、修复周期。
Golden Set 是最低可行方案：20–50 个高价值问题，每周固定变量复跑，留存原始输出。
监测不是“证明做了”，而是把异常变成动作：错引/过期/过度概括/引用不稳 → 对应内容/技术/口径/站外工单。
指标一定要能“对账到页面与段落”：否则无法定位“该改哪一段、该补哪张证据卡”。
GEO 的风险与增长同源：没有 SSOT/证据位/版本化，就会被 过期与错引 反噬（品牌与合规尤其高风险）。

1）先把 KPI 分层：从“出现”到“说对”再到“带结果”

1.1 为什么要三层 KPI（Visibility / Quality / Business）

生成式答案天然波动（时间、地区、是否登录、模型版本都会影响输出）。因此你需要把 KPI 分层，避免把不可控噪声当成增长：

可见性层（Visibility）：AI 答案里有没有你（提及/引用/份额）
质量层（Quality）：出现你时有没有“说对你”（口径、版本、边界、证据）
业务层（Business）：在零点击增强的环境下，是否仍能导向必须点资产（对比/模板/试用/报价）

1.2 三层 KPI 的最小验收口径

Visibility：是否出现（Y/N）+ 出现在哪个平台 + 在竞品中占比
Quality：关键事实是否正确（Y/N）+ 是否命中证据位（Y/N）+ 是否过期
Business：是否出现下一步动作（Y/N）+ 是否发生可对账事件（注册/试用/询盘/下载等）

2）指标字典：AIV/AIR/AIS + 12 个可直接落地的核心指标

建议把下表做成你团队的 “指标口径字典（Metric Dictionary）”：统一定义、统一计算、统一数据源、统一更新节奏。

2.1 核心指标一览表

层级	指标	你在衡量什么	推荐口径（可执行）	计算方式（示例）	数据来源
Visibility	AIV / AIVR（AI 可见率）	AI 首答中是否出现你	“出现品牌名或明确可消歧实体”算出现	出现次数 ÷ 总运行次数	Golden Set 抽检
Visibility	AIR / CR（AI 引用率）	AI 是否给出你的来源引用	“引用列表/来源卡出现你域名”算引用	引用次数 ÷ 总运行次数	Golden Set 抽检
Visibility	AIS / AI‑SOV（答案份额）	同问题下你与竞品的占位比例	以“提及/引用”为计数口径（二选一）	你被提及数 ÷（你+竞品被提及数）	Golden Set + 竞品集
Visibility	Share of Citations（引用份额）	引用来源里你占多大比例	只看 citation 域名/页面	你引用数 ÷ 全部引用数	引用明细
Quality	Accuracy（引用准确率）	AI 是否“说对你”	以“关键事实字段”判定（如价格/限制/版本）	正确次数 ÷ 出现次数	抽检标注
Quality	Evidence Hit Rate（证据命中率）	是否命中你提供的证据位/权威段落	引用到指定证据页或段落锚点算命中	命中次数 ÷ 引用次数	引用到 URL+锚点
Quality	Freshness Hit（新鲜度命中）	是否引用到最新口径	抽检是否出现过期版本/旧条款	过期次数 ÷ 出现次数（越低越好）	版本/变更日志
Quality	PPR（正面呈现比）	出现时语气是否正面/中立/负面	先定义“负面”的触发词与判定规则	正面/中立/负面占比	文本标注/工具
Quality	FTR（追问覆盖率）	多轮追问是否仍引用/提及你	追问链路中仍出现你算覆盖	覆盖次数 ÷ 追问次数	多轮对话抽检
Business	CTA Presence（下一步动作出现率）	是否导向必须点资产	出现“对比/模板/试用/报价”等可点击动作	出现次数 ÷ 出现你次数	抽检 + 站内承接
Business	Assisted Conversion（辅助转化）	答案引导是否带来可对账事件	以事件口径为准（注册/试用/询盘/下载）	事件数（或占比）	埋点/分析平台
Ops	MTR / MTTR（纠错闭环周期）	从发现错误到 AI 采纳修正的时延	以“发现→发布更正→抽检恢复”为周期	平均/中位数天数	变更日志 + 抽检

取舍建议：早期不要追求“指标全”，优先把 AIV/AIR/AIS + Accuracy + Evidence Hit + FTR + MTTR 跑通闭环。

3）采集方法：用 Golden Set 把“截图汇报”升级为“可复现系统”

3.1 Golden Set（固定问集回归）的最低可行方案

目标：让监测具备可比性（同一批问题、同一套变量、同一套输出字段）。

问集规模：20–50 个高价值问题（长期不变）
频率：每周固定频率复跑（如每周一/三/五）
记录变量（强制）：
- 平台/引擎（如：Perplexity、Bing/Copilot、ChatGPT、Google AI Overviews 等）
- 时间（精确到时区/小时）
- 语言
- 地区/网络出口（如有）
- 是否登录/是否个性化
留存原始输出：答案全文 + 引用来源列表 + 截图（可选）

3.2 采集记录表（建议字段，可直接复制到表格）

字段	说明
run_id	本次运行唯一编号
date_time	运行时间（含时区）
engine	平台/引擎名称
locale	语言/地区
logged_in	是否登录（Y/N）
prompt_id	问题 ID（固定）
prompt_text	问题原文（固定）
intent	意图类别（定义/对比/选型/定价/合规/实施…）
brand_mentioned	是否提及你（Y/N）
brand_cited	是否引用你（Y/N）
cited_domains	引用域名列表
cited_urls	引用 URL 列表（如可取）
cited_anchor	是否命中段落锚点（如可取）
key_fact_ok	关键事实是否正确（Y/N）
error_type	错误类型（错引/过期/过度概括/混淆实体…）
evidence_hit	是否命中证据位（Y/N）
sentiment	正/中/负
next_action_present	是否出现下一步动作（Y/N）
action_type	对比/模板/试用/报价/下载…
raw_answer	原始答案文本（留档）
notes	备注（人工标注）

3.3 输出结构：让周报“可对账”的最低字段

每个问题至少输出：

是否提及你（Y/N）
是否引用你（Y/N）
引用到哪一页/哪一段（URL + 锚点）
关键事实是否正确（Y/N + 错误类型）
是否命中证据位（Y/N）
下一步动作是否出现（是否导向你的承接资产）
需要采取的纠错动作（内容/技术/口径/站外）

4）从“指标”到“动作”：把异常固化成 SOP

监测的价值不在于“看见波动”，而在于 把波动翻译成可执行工单。

4.1 常见异常 → 直接动作映射（可复制）

错引（事实错误）
- 动作：回到 SSOT/证据卡 → 更新事实页 → 增加边界与反例 → 回归验证
过期（旧政策/旧价格/旧版本）
- 动作：更新 dateModified → 写变更日志 → 关键事实页互链 → 增加“生效范围/版本号”
过度概括（边界被抹平）
- 动作：补“适用/不适用” → 增加反例 → 提升证据明确性（参数、阈值、例外）
引用不稳定（时有时无）
- 动作：检查结构分块 → 强化答案单元 → 增加多源一致性（站内外） → 排查抓取与渲染
混淆实体（把你和同名品牌/竞品搞混）
- 动作：完善实体卡（别名/消歧声明）→ Organization/Person/Product Schema → 站外权威档案一致化
引用第三方而非引用你
- 动作：补“官网可引用证据页/对比页/事实页” → 让引用可追溯到你

4.2 周报模板（建议一页看懂）

周报结构建议：

本周概览：样本量、覆盖引擎、问集版本
三层 KPI：AIV/AIR/AIS + Accuracy + Evidence Hit + FTR + MTTR
Top 异常：错引/过期/不稳定的问题清单（按业务风险排序）
本周动作：已发布/待发布/已验证
下周计划：新增问题、扩展主题、站外权威动作

你可以用下面这张表作为周报核心页：

维度	本周	上周	环比	备注（解释口径变化/模型变化）
AIV（可见率）
AIR（引用率）
AIS（答案份额）
引用准确率
证据命中率
追问覆盖率
首方来源占比
纠错闭环周期（MTTR）

5）指标落地的前提条件：没有“可引用资产”，监测只会得到坏消息

监测系统要输出“可执行动作”，你的网站侧至少要具备三类资产（否则你只能不断看到“未出现/引用第三方/说错你”）：

5.1 答案单元（Answer Block）要统一模板

建议每个关键 H2/H3 采用统一结构：

问题标题（用户问法）
短答案（30–80 字）
要点（3–5 条）
适用/不适用边界
证据位（来源/口径/时间戳/版本）
下一步动作（对比表/模板/计算器/试用/报价）

5.2 SSOT（单一事实源）先覆盖高风险事实

优先 SSOT 化（高风险、易错、易过期）：

价格与套餐
产品功能与限制
合规与政策（隐私、数据、退款等）
版本与更新（上线/废弃）
术语定义与口径（同词多义最致命）

5.3 证据卡 / 实体卡：把“对你有利的事实”变成可被引用的证据位

实体卡：明确你是谁、你提供什么、与你相关的概念、正确/错误表述边界
证据卡：每个关键断言都能追溯到证据（数据/条款/定义）+ 口径 + 时间戳/版本

6）证据与边界：哪些情况不适合用单次结果下结论？

6.1 适用场景

你要把 GEO 做成季度/年度的运营能力（而非一次 campaign）
你需要跨团队协同（内容/技术/品牌/产品/数据）
你所在行业存在高风险事实（价格、合规、医疗/金融等）

6.2 不适用/慎用场景

只跑一次抽样就想证明 ROI（波动太大，容易“幸存者偏差”）
只关心“有没有提到我”但不在意“说对了吗”（品牌风险会累积）
没有 SSOT 与版本机制，却在高风险主题上做强曝光（容易被过期/错引反噬）

6.3 需要联网核查的点（建议每季度复核）

不同答案引擎的产品形态与“引用展示方式”会变化，建议定期核查（用搜索关键词即可）：

“Perplexity citations display change”
“Bing Copilot sources update”
“Google AI Overviews links policy”
“ChatGPT browsing citations how works”

7）30‑60‑90 天落地路线图（监测视角）

0–30 天：建立“可观测与可审计”的底盘

冻结 Golden Set v1（20–50 问题 + 意图分层 + 竞品集）
建立指标字典 v1（AIV/AIR/AIS + Accuracy + Evidence Hit + MTTR）
跑出基线快照并留存原始数据
输出第一版异常清单（P0 工单：抓取/渲染/结构化/口径冲突）

31–60 天：把“引用缺口”翻译成“答案资产与证据资产”

为 Top prompts 建立/改造对应答案单元（定义/对比/步骤/FAQ）
建立 SSOT 与证据卡 v0（覆盖高风险事实）
给关键段落加可定位锚点（便于精准引用）
周度复跑：用“异常→动作→回归验证”跑通闭环

61–90 天：规模化与站外一致性

扩展到 3–5 个主题集群（Hub + Spokes + FAQ）
强化实体一致性（品牌/产品/作者）并建设站外权威节点
把监测纳入例会机制：异常报警 → 工单 → 复测 → 归档

术语定义

GEO（生成引擎优化）：让品牌/产品/观点在 AI 生成答案中被稳定引用、引用正确，并能承接到业务结果的系统工程。
AEO（Answer Engine Optimization）：围绕答案引擎的可见性、引用与呈现进行优化的统称。
答案单元（Answer Block/Answer Unit）：可独立引用的最小内容模块（短答案 + 要点 + 边界 + 证据位 + 下一步动作）。
答案份额（AIS / AI‑SOV）：在同一问题集合中，你相对竞品的被提及/被引用占比。
Golden Set：固定问集回归测试，用于可复现对比。
SSOT（Single Source of Truth）：单一事实源，用来统一价格/条款/版本等高风险口径。
证据卡（Evidence Card）：把结论与证据、口径、时间戳、版本绑定的可引用信息块。
实体卡（Entity Card）：用于消歧的品牌/产品/作者知识卡（标准命名、别名、定位、边界、官方入口）。
证据命中率（Evidence Hit Rate）：AI 引用是否命中你提供的证据位（页/段落/锚点）。
纠错闭环周期（MTTR/MTR）：从发现错引到发布修正并在回归测试中恢复的时间。

关键实体清单（品牌/产品/概念/平台/指标）

平台/答案引擎：Bing/Copilot、Perplexity、ChatGPT、Google AI Overviews、Google AI Mode、Gemini、Claude
核心概念：GEO、AEO、RAG、实体一致性、证据工程、答案单元、答案份额、可审计监测
核心指标：AIV/AIVR、AIR/CR、AIS/AI‑SOV、Accuracy、Evidence Hit、FSR、FTR、PPR、MTTR