53-RAG评估体系-RAGAS指标-自动化评测实战
📅 2026/7/4 4:09:33
👁️ 次浏览
文章目录【53.PythonAI】RAG评估体系你的问答系统到底准不准RAGAS客观评价全解导入语1 ~ RAGAS四大核心指标2 ~ 完整评估脚本3 ~ 指标解读与优化4 ~ 人工评估vs自动评估思考 总结结尾【53.PythonAI】RAG评估体系你的问答系统到底准不准RAGAS客观评价全解文章简介本文系统讲解RAG系统的量化评估方法。内容涵盖RAGAS评估框架的四大核心指标——忠实度Faithfulness、答案相关性Answer Relevancy、上下文召回率Context Recall和上下文精度Context Precision每个指标的计算公式与应用场景。文中提供完整的自动化评估脚本和测试数据集构建方法并对比人工评估与自动评估的适用边界配以Mermaid流程图展示评估流水线。适合搭建了RAG但不知道效果到底好不好的开发者。 个人主页源码骑士❄专栏传送门《Android开发基础》《python基础课程》⭐️热衷从源码视角拆解技术底层原理将复杂架构讲得通俗易懂 源码骑士的简介5年Android Framework系统开发经验曾主导多项系统级性能优化专项技术栈覆盖Android系统全链路Binder/Handler/AMS/WMS/启动流程及Java后端全家桶Spring MyBatis Redis Oracle累计产出原创技术文章100篇文章以流程图为特色被读者评价为看一篇胜过啃一周源码导入语你调了一周的RAG——换Embedding模型、改chunk size、加Reranker。效果好像变好了还是你的错觉老板问现在的准确率是多少你说感觉还行——这句话在工程上等于零。RAG需要客观评价。不是我觉得准而是有数字、有指标、可复现。这篇文章给你RAGAS框架——一套专门为RAG设计的自动评估工具四个指标覆盖检索准不准到回答对不对的完整链条。1 ~ RAGAS四大核心指标Context RecallContext PrecisionFaithfulnessAnswer Relevancy用户问题检索阶段召回的上下文(Context)生成阶段最终回答(Answer)参考上下文指标评估对象核心问题忠实度回答 vs 上下文回答里的每句话都能在检索到的文档中找到依据吗答案相关性回答 vs 用户问题回答紧扣问题了吗有没有跑题上下文精度召回的上下文 vs 回答召回的文档里有多少是真正有用的上下文召回率召回的上下文 vs 理想上下文应该被召回的文档实际召回了多少2 ~ 完整评估脚本# pip install ragas langchain-openai datasetsfromdatasetsimportDatasetfromragasimportevaluatefromragas.metricsimport(faithfulness,answer_relevancy,context_recall,context_precision,)fromlangchain_openaiimportChatOpenAI,OpenAIEmbeddings# 构建测试数据集 test_data{question:[公司年假政策是什么,远程办公需要什么审批流程,加班费怎么计算,],answer:[# 这里填你的RAG系统对每个问题的实际回答根据公司规定员工入职满一年享有5天年假...,远程办公需提前一天向直属领导申请...,工作日加班按1.5倍工资计算...,],contexts:[# 这里填RAG系统为每个问题召回的实际上下文文档片段列表[[入职满一年的员工享有5天年假...],[年假可在当年内分段使用...]],[[远程办公需填写OA申请表...],[申请需直属领导审批...]],[[工作日加班费为基本工资的1.5倍...],[周末加班为2倍...]],],ground_truth:[# 理想情况下应该召回的完整上下文员工入职满一年享有5天年假可分段使用未休完可结转至次年3月。,远程办公需提前一天在OA系统提交申请经直属领导审批后可执行。,工作日加班1.5倍工资休息日2倍法定节假日3倍。,],}datasetDataset.from_dict(test_data)# 运行评估 llmChatOpenAI(modelgpt-3.5-turbo,temperature0)embeddingsOpenAIEmbeddings()resultsevaluate(dataset,metrics[faithfulness,answer_relevancy,context_recall,context_precision],llmllm,embeddingsembeddings,)# 输出结果print(f忠实度(Faithfulness):{results[faithfulness]:.2%})print(f答案相关性(Answer Relevancy):{results[answer_relevancy]:.2%})print(f上下文召回率(Context Recall):{results[context_recall]:.2%})print(f上下文精度(Context Precision):{results[context_precision]:.2%})3 ~ 指标解读与优化指标优秀合格需优化优化方向忠实度90%75%70%降低temperature、加强Prompt约束基于上下文回答答案相关性85%70%65%优化Prompt让LLM更聚焦问题上下文精度80%60%50%加Reranker精排、缩小k值上下文召回率90%75%60%加混合检索、增大k值、查询改写4 ~ 人工评估vs自动评估RAGAS自动评估人工评估速度100条/分钟5~10条/小时成本API费用极低人力成本高一致性100%同样数据同样结果75%~90%不同人主观差异适用开发迭代阶段每次改动都跑上线前最终验收最佳实践日常迭代用RAGAS自动评估每改一个参数跑一次。上线前抽50条人工评估校准。思考 总结RAGAS把感觉变成数字四个指标覆盖了从检索到回答的完整链路每个改动都可以验证效果。忠实度是安全红线它衡量AI有没有胡说。低于70%说明你的RAG在制造幻觉而非基于文档回答。测试集质量决定评估价值10个精心设计的真实问题比100个随机生成的问题更有参考意义。每次改动都要重跑评估改chunk_size → 跑一遍 → 看四个指标变化 → 决定要不要保留改动。自动评估不能完全替代人工RAGAS的Faithfulness评估本身也依赖LLM判断存在误差。没有评估的RAG优化是盲人摸象。RAGAS让你知道摸到的是鼻子还是大腿。结尾各位小伙伴本文完源码骑士 — Android Framework 全栈开发关注| ❤️点赞| ⭐收藏| 评论| 一键四连️寄语你不能优化你无法衡量的东西——RAGAS就是你的尺子。往期回顾【PythonAI】多模态RAG / 【PythonAI】Self-Querying / 【PythonAI】检索策略进阶 / 【PythonAI】LangChain搭RAG / 【PythonAI】向量数据库选型
目录 手把手教你学 Simulink——基于双重移相(Dual Phase Shift, DPS)控制的双主动全桥(DAB)DC‑DC 最小电流应力控制仿真
一、为什么 DAB 要用 双重移相 + 最小电流应力(Minimum Current Stress, MCS)控制
1.1 DAB 典型应用
1.2 单重移相(SPS)问题
二、DAB 拓扑与…
📅 2026/7/4 4:09:33
◇ 菱形:表示网关(Gateway),用于建模流程的分支(split)或合并(join)逻辑,如排他网关(Exclusive Gateway)、并行网关(Parallel Gateway…
📅 2026/7/4 4:09:33
1. 项目概述:BK7239N芯片的技术定位BK7239N是博通集成(Beken)推出的一款面向物联网领域的双频WiFi6芯片解决方案。作为国内少数能提供完整WiFi6 IoT芯片的厂商,这款产品在2023年Q2量产时曾引发行业关注。其核心卖点在于将2.4GHz/5GHz双频支持、WiFi6协议…
📅 2026/7/4 4:09:33
OSX-KVM音频延迟问题深度解析:三种高效解决方案对比 【免费下载链接】OSX-KVM Run macOS on QEMU/KVM. With OpenCore Monterey Ventura Sonoma support now! Only commercial (paid) support is available now to avoid spammy issues. No Mac system is requir…
📅 2026/7/4 5:03:38
1. 项目概述:当经典渗透工具遇上新系统环境最近在折腾Kali Linux 2023版本,想重温一下经典的无线钓鱼工具Fluxion,结果一上来就给我来了个下马威。相信不少朋友,尤其是刚接触渗透测试或者从老版本Kali迁移过来的同学,都…
📅 2026/7/4 5:03:38
Obsidian Web Clipper:构建知识管理系统的浏览器扩展架构 【免费下载链接】obsidian-clipper Highlight and capture the web in your favorite browser. The official Web Clipper extension for Obsidian. 项目地址: https://gitcode.com/gh_mirrors/obsidia/ob…
📅 2026/7/4 5:03:38
1. 项目概述:当Cookie成为攻击入口做Web安全测试的同行,对sqli-labs这个靶场应该都不陌生。它几乎成了我们入门和进阶SQL注入的“必修课”。前面的关卡,我们大多在和URL参数、表单输入斗智斗勇,但到了第21关,战场转移了…
📅 2026/7/4 5:03:38
1. 项目概述:当SQL注入遇上文件上传在Web安全领域,SQL注入和文件上传漏洞通常是两个独立的攻击向量,前者用于操纵数据库,后者用于向服务器植入恶意文件。但你是否想过,如果将它们结合起来,会产生怎样的“化…
📅 2026/7/4 5:03:38
5个步骤掌握Joplin:构建你的免费开源跨平台个人知识库 【免费下载链接】joplin Joplin - the privacy-focused note taking app with sync capabilities for Windows, macOS, Linux, Android and iOS. 项目地址: https://gitcode.com/GitHub_Trending/jo/joplin …
📅 2026/7/4 5:01:38
Axure RP中文界面终极解决方案:3分钟告别英文困扰 【免费下载链接】axure-cn Chinese language file for Axure RP. Axure RP 简体中文语言包。支持 Axure 11、10、9。不定期更新。 项目地址: https://gitcode.com/gh_mirrors/ax/axure-cn
还在为Axure RP的英…
📅 2026/7/4 0:00:50
1. MC6470与STM32F745VG的黄金组合解析在工业自动化和机器人控制领域,传感器与微控制器的协同工作能力直接决定了系统的响应速度和定位精度。MC6470作为一款6自由度惯性测量单元(6DOF IMU),与STM32F745VG这款基于ARM Cortex-M7内核的高性能微控制器组合&…
📅 2026/7/4 0:00:50
1. 项目概述:为什么要在本地跑 SAM Audio?这不只是“能用”,而是“必须用”SAM Audio——全称是 Segment Anything Model for Audio,不是 Meta 那个视觉领域的 SAM(Segment Anything Model)的简单移植&…
📅 2026/7/4 0:00:50
6个月前的2025年12月,Boris Cherny 公开宣布自己卸载了 IDE。一时间,Vibe Coding 成了全行业最热的话题。6个月后,当我们回过头来拉一份真实账本,发现事情远没有"一句话生成一个App"那么浪漫。本文从产品经理和研发两个…
📅 2026/7/2 17:37:53
引言:审计结束三个月了,审计员的权限还没关某城商行每年按照监管要求开展至少一次数据安全审计。审计期间,内审部门需要抽样检查各类业务数据——交易流水、客户信息、员工操作日志、权限配置记录。这些数据分布在不同系统中,审计…
📅 2026/7/2 17:37:51
目录
第一步:选对模板,省心一半
第二步:打开扫码点餐功能
开启功能按钮
桌台管理与桌码生成
第三步:个性化设计,打造品牌感
调整点餐页面
设置点餐规则 你还在让顾客站着排队点餐吗?2025年ÿ…
📅 2026/7/3 4:46:22
在业务中快速构建一个能理解私有文档、准确回答专业问题的智能助手,是很多开发团队面临的共同挑战。传统方案往往需要从零开始搭建复杂的 RAG(检索增强生成)系统,涉及文档解析、向量化、检索、大模型调用等多个环节,整…
📅 2026/7/2 9:49:12
FAE放射组学分析工具:医学影像特征探索的完整解决方案 【免费下载链接】FAE FeAture Explorer 项目地址: https://gitcode.com/gh_mirrors/fae/FAE
你是否曾经面对海量医学影像数据感到无从下手?想要从CT、MRI等影像中提取有价值的定量特征&#…
📅 2026/7/3 10:20:06