阶段列表
暂无话术
请从左侧选择一个阶段查看详情
员工个人话术
加载中...
加载中...
行业库管理
加载中...
行业话术
暂无话术
请从左侧选择一个阶段查看详情
企业管理
加载中...
企业话术
加载中...
选择左侧分类查看话术
用户管理
加载中...
选择一条反馈查看详情
从左侧列表点击反馈条目进行处理
扩展设置
修改后自动保存到服务器,扩展下次加载时生效
显示在扩展面板顶部的名称
留空则只用 Google Translate
显示在插件面板顶部名称左侧,建议 48×48
Chrome 扩展商店/管理页面图标,建议 128×128
模型管理
配置 AI 大模型,用于意图识别和话术智能匹配
当前激活模型
对话模型 (LLM)
未配置
向量模型 (Embedding)
未配置
已配置模型
快速预设
用量统计
查看 AI 模型调用量、Token 消耗和费用明细
0
今日调用
0
今日 Token
¥0
今日费用
¥0
本月费用
按模型分拆
按企业分拆
按员工用量
最近调用明细
高级设置
配置 AI 预算、超时和匹配参数,所有设置为全局生效
设置每月 AI 调用的最大费用。
超过预算后自动降级为本地向量匹配。
0 表示不限制。
超过预算后自动降级为本地匹配,0 表示不限制
不直接影响 token,仅控制总费用上限
当费用达到预算的此百分比时,
在界面显示警告提示。
推荐值:80%
达到预算的此百分比时显示警告
不直接影响 token,仅显示预警
AI 响应的最大等待时间。
超时后自动降级为本地向量匹配结果。
推荐范围:3000-8000ms
超时后自动降级为向量检索结果
不直接影响 token,仅控制响应时间
每次匹配时携带的最近对话轮数。
• 较低值(1-3):减少上下文,可能遗漏重要信息
• 中等值(4-7):平衡上下文和成本(推荐)
• 较高值(8-20):完整对话历史,但 token 消耗高
推荐范围:3-10
每次匹配时携带的最近对话轮数
高影响:每轮约增加 50-100 个输入 token
控制 AI 输出的随机性和创造性。
• 低值(0-0.3):输出稳定、确定性强(推荐)
• 中值(0.4-0.7):平衡创造性和准确性
• 高值(0.8-1):更多样化但可能不稳定
推荐范围:0.2-0.5
控制 AI 输出的随机性,越低越稳定
不影响 token 数量,影响输出质量和多样性
AI 单次回复的最大长度。
• 设置过低可能导致回复被截断
• 设置过高会浪费 token
推荐范围:500-2000
单次请求最大输出 token 数
中等影响:限制单次请求最大输出 token 数
送入 AI 筛选的话术条数。
• 越多匹配越精准,但输入 token 越高
• 每条话术约 30-80 token
推荐范围:10-20
送入 AI 筛选的候选话术条数
高影响:每条话术约 30-80 个输入 token
向量相似度筛选返回的数量。
• 当话术库 >50 条时生效
• 影响送入 AI 的候选数量
推荐范围:10-20
向量相似度筛选返回的数量
中等影响:间接决定候选话术池大小
向量匹配的最高相似度超过此阈值时,
直接返回结果,不调用 AI(零 token 消耗)。
• 较低值(0.5-0.6):更多走快速路径,省 token
• 较高值(0.8-0.9):更精准,但更多调用 AI
推荐范围:0.6-0.8
超过此阈值直接返回向量结果,不调用 AI
高影响:决定多少请求走零成本快速路径
向量快速路径直接返回的话术条数。
• 较少(3-5):结果少但精准
• 较多(8-12):结果多但可能噪音
推荐范围:5-10
向量快速路径直接返回的话术条数
不影响 token,仅控制返回结果数量
切换 Embedding 模型后是否自动重建
所有话术的向量索引。
重建时消耗 embedding token,
为一次性成本。
重建时消耗 embedding token,为一次性成本