把科学家的实验记录本变成AI可靠工具

把科学家的实验记录本变成AI可靠工具
这项由南方科技大学、香港科技大学广州和都柏林大学学院共同完成的研究于2026年6月以预印本形式发布论文编号为arXiv:2606.11897感兴趣的读者可以通过该编号查询完整论文。**研究概要当AI助手读懂科学家犹豫的那一刻**科学家的实验记录本是一种非常特殊的文字。你翻开它会看到信号似乎有些问题不太确定、这段数据可能不可靠、下次试试换缓冲液——这些句子里藏着科学家在实验台边的真实心理状态有时候他们胸有成竹有时候他们只是在猜测有时候他们只是随手记下一个值得尝试的想法。现在假设你是一个AI助手你要根据这本记录本来帮助科学家处理数据。你会怎么做如果你把不确定这段数据是否可靠当成一个明确指令去执行你就可能把一段还有研究价值的数据直接扔掉——而那可能正是实验中最关键的部分。反过来如果你把这部分数据无效直接截断当成一个可以随便商量的建议那你就可能保留了应该删除的垃圾数据污染后续所有的分析结果。这两种失误在研究团队的工作中都有实际案例。他们将第一种失误称为不确定性漂白第二种失误称为指令丢失。这两种失误的根源相同AI在读实验记录本时分不清楚科学家说的到底是确认事实、主观判断还是随口建议。为了解决这个问题研究团队设计了一套叫做Notes2SkillsN2S记录转技能的两阶段框架。这套框架能把科学家的实验记录本转化为AI可以调用的、带有确定性标签的技能库让AI在执行操作时始终清楚地知道这条指令来自科学家的确凿观察、还是他的犹豫猜测、抑或只是一个随手写下的未来设想。---一、为什么实验记录本是一块特别难啃的骨头要理解这项研究的价值我们得先搞清楚实验记录本和其他科学文本的本质区别。科学界已有大量AI工具能够处理正式的科学文字。比如发表出来的论文、标准实验操作流程也叫湿实验室协议、化学合成数据库等等。这些文字有一个共同特点作者在写下它们的时候已经解决了自己的疑虑。离心机转10分钟就是明确指令温度设定为4摄氏度就是确定事实没有任何模糊空间。AI只需要把这些指令识别出来、转换成可执行动作就完成任务了。实验记录本则完全不同。它是科学家在实验过程中实时写下的内容充满了不确定性、自我质疑和尚未验证的猜想。同一段记录里可能同时出现读数在五分钟后急剧下降这是一个事实、不确定第二次读数是否可靠这是一个模糊判断和下次试试换新鲜缓冲液这只是一个建议。这三种表述混在一起表面上看起来都很相似但它们应该引发的AI行为完全不同。更麻烦的是实验记录本往往还带有中英文混写、口语化表达、省略主语、使用代词等特点给AI理解带来了额外挑战。研究团队收集的一类记录本他们称之为FreeNotes就是由中国科研机构的研究员用中英文夹杂的方式书写的充满了这个read好像有点问题这样的混合表达。正因如此以往的AI系统在处理实验记录本时几乎都走了捷径——要么只处理格式规整的协议文件要么把所有记录不加区分地当成指令执行。研究团队认为这个捷径是危险的它正是导致不确定性漂白和指令丢失的根本原因。---二、给每一句话贴上确定性标签第一阶段的核心任务研究团队设计的解决方案分两个阶段。第一阶段叫做情境化指令提取EDEEpistemic Directive Extraction核心任务是把实验记录本里的每一段文字都拆解成三个维度的信息。第一个维度是判断这段话是否包含一个指令所谓指令就是能影响后续数据处理行为的内容——比如标记数据质量有问题、记录实验条件变化、建议某种分析方法、记录操作程序的改变或者记录某个参数数值的变化。如果一段话只是单纯描述实验现象不包含任何会改变后续行为的信息那它就不是指令。第二个维度是分类这个指令属于哪种类型研究团队定义了五种类型。数据标记类指令表示某段数据需要特殊处理比如这段信号无效条件变更类指令表示实验条件发生了改变比如换用PBS溶液清洗了纳米孔分析建议类指令表示建议采用某种分析方式协议变更类指令表示对实验操作步骤进行了调整参数变化类指令表示某个关键数值发生了变化。第三个维度也是最关键的维度这个指令的确定性是什么级别研究团队定义了三个级别。事实FACT表示作者以确定的口吻陈述没有任何犹豫。判断JUDGMENT表示作者带有不确定性比如用了似乎、可能、不太确定这样的词。建议SUGGESTION表示作者只是提出一个可选的未来方向并不要求执行。这三个确定性级别直接决定了AI后续被允许做什么。被标记为事实的指令可以授权AI执行强力操作比如直接截断数据被标记为判断的指令只能让AI把数据标记为待人工审核被标记为建议的指令AI只需要知晓不采取任何主动行动。研究团队用三种大型语言模型GPT-4o、Claude Sonnet 4.5和Qwen-Max测试了这一阶段的效果分别在零样本不给任何例子直接提问和少样本提供少量标注好的例子两种设置下进行测试。结果显示少样本设置对所有三个模型都有稳定的提升效果其中Claude Sonnet 4.5在少样本设置下的综合表现最好对是否包含指令这一判断的F1分数一种衡量准确率和召回率综合表现的指标达到了0.737而最强零样本基线只有0.682。对指令类型分类的F1分数也从0.320提升到了0.500。值得注意的是GPT-4o在确定性级别判断上的表现最好其二次加权Kappa一种衡量等级一致性的统计指标高达0.946说明它在区分事实、判断和建议这三个层级上非常准确。不同类型的记录本难度各不相同。正式的湿实验室协议WLP最好处理因为语言规整、格式统一研究者自己写的非正式记录本FreeNotes最难处理少样本设置对它的提升也最显著介于两者之间的开放记录本ONS则暴露了一个有趣现象Qwen-Max在零样本设置下几乎完全失效F1只有0.154但一旦给它看几个标注好的例子它就能立刻恢复到0.727说明这不是模型能力的问题而是模型没有理解任务的风格要求。---三、打包成可调用的技能胶囊第二阶段的工程设计提取出带有确定性标签的指令之后第二阶段的任务是把这些指令编译成一个AI可以直接调用的MetaSkill元技能文件。这个文件的格式是Markdown一种结构化的文本格式AI助手可以直接读取并根据其中的内容做决策。MetaSkill文件的核心是每个指令对应的胶囊capsule。每个胶囊都包含以下要素指令的唯一身份标识、原始记录片段的原文引用、指令类型标签、确定性级别标签、原文中表达不确定性的具体词语比如uncertain、looks like等、指令适用的数据范围是某一段数据还是从某时刻开始的全部数据以及一个密码学哈希值——这个哈希值就像文件的DNA保证胶囊中的内容和原始记录本完全一致任何人都可以独立验证这个链接。研究团队特别强调第二阶段的编译过程是完全确定性的中间没有任何大语言模型参与。这是一个有意为之的设计选择。如果让AI来理解和重写第一阶段的输出就会引入新的不确定性——AI可能在转化过程中扭曲原作者的意图把一个模糊的判断重新解读成一个确定的指令。而一个完全确定性的编译器不会做任何解读只会忠实地把第一阶段的结构化输出翻译成MetaSkill格式保证每一个胶囊都是原始记录的精确镜像。研究团队在三个不同风格的语料库上验证了这一阶段的可靠性非正式的中英文记录本48个指令、半正式的开放记录本31个指令和正式的湿实验室协议70个指令共计149个指令。结果是100%完美所有149个指令都被正确编译为胶囊确定性标签完全正确哈希值链接完好无损JSON格式一种结构化数据格式完全有效。这个结果并不令人意外因为确定性系统本来就应该这样——它要么全部正确要么有bug。研究团队还特别核查了FreeNotes记录本中的行动策略层同样全部通过。---四、真正的考验在真实实验数据上拦截那两种失误构建好MetaSkill文件只是第一步。研究团队随后进行了一个更接近真实应用场景的测试把这套系统接入一个实际的纳米孔传感实验一种生物物理学实验用于检测分子穿过纳米级小孔时产生的微弱电流信号让AI根据MetaSkill文件来决定如何处理每个实验数据文件。这个下游测试涉及三个由真实科研数据构成的会话session共48个文件由两位资深生物物理学家分属两所机构提前标注好了每个文件的正确处理方式作为评测标准。三个会话分别代表三种典型场景。第一个叫做饱和度-A17个文件大量不确定性内容14个文件的正确答案是标记待审核代表充满模糊判断的实验记录。第二个叫做饱和度-B22个文件存在明确的饱和电流事件20个文件的正确答案是标记待审核代表信号特征清晰但处理决策仍需谨慎的场景。第三个叫做信号跌落9个文件全部由明确的事实性指令主导正确答案是在特定时间点截断数据。研究团队测试了七种不同的配置方案核心对比如下。直接用原始记录本文字加上信号数据喂给AI不经过任何编译即外部LLM基线这种方案在两个饱和度会话上彻底失败标记待审核这一类别的召回率都是0%AI把所有应该保留审核的文件都当成了保留完整数据或者直接截断。但在信号跌落会话上表现还不错κ0.80因为那个场景里的指令都足够明确AI不需要理解不确定性就能做出正确判断。只给AI一份包含行动指令但没有确定性标签的技能文件仅行动技能方案在饱和度会话上同样失败严重标记待审核召回率分别只有21.4%和0%。但在信号跌落会话上表现最好κ0.80与外部LLM基线持平。这个结果说明当信号足够明确、指令足够直接时不需要确定性标签也能做好。但一旦遇到模糊场景没有确定性标签的AI就会不由自主地把犹豫解读成行动。给仅行动技能加上执行器executor一个确定性的规则检查模块在饱和度会话上准确率有所提升达到88.9%和90.9%但标记待审核召回率为0——因为执行器没有确定性标签可以读取只能对所有强力操作一刀切地降级变成了一个什么都变成待审核的机器反而在信号跌落会话上把原本88.9%的准确率直接砸到44.4%。只给AI提供原文引用片段原始记录方案在饱和度会话上同样表现平庸饱和度-A的标记待审核召回率50%饱和度-B为0%在信号跌落会话上有一定表现κ0.63。给AI完整的MetaSkill文件但不启用执行器在信号跌落会话上准确率反而下降了说明光有MetaSkill还不够需要执行器来强制执行其中的确定性约束。给AI完整的MetaSkill文件并启用执行器验证模式在两个饱和度会话上表现跃升饱和度-A的综合F1分数达到85.6%κ达到0.71标记待审核召回率85.7%饱和度-B则实现了完美的100%准确率。但在信号跌落会话上由于执行器的授权规则找不到与信号证据匹配的支持不敢执行截断操作准确率只有44.4%。给AI完整的MetaSkill文件并启用执行器验证提升模式这是研究团队的完整方案在验证模式基础上增加了替换Substitute能力当AI提出了保守操作但MetaSkill中存在事实级别的指令、且信号数据也支持这个指令时执行器可以主动升级操作。在饱和度会话上与验证模式结果相同在信号跌落会话上替换机制激活了14次共45个决策成功把准确率从44.4%拉回到77.8%κ从0.15提升到0.63。这个结果清楚地说明完整方案是唯一一个能同时避免两种失误的配置。它不是某个指标最高的方案但它是唯一在所有场景下都不犯原则性错误的方案。---五、执行器这套系统的良心执行器是整套系统中非常关键的一个组件值得单独解释一下它的工作原理。可以把AI助手比作一个刚入职的实验室助理他需要根据上一任研究员留下的记录本来处理数据。执行器就像是一位经验丰富的高级研究员站在这位新助理的背后在他做出每个决定之前进行最后的检查。当AI新助理想要执行一个强力操作——比如截断某个文件在32秒之后的数据——执行器会先查看MetaSkill胶囊里的记录这个截断建议来自作者的确凿事实描述还是他的猜测信号数据本身是否也显示出32秒附近确实有异常只有当两个条件同时满足时执行器才会放行这个截断操作。如果其中任何一个条件不满足执行器就会把操作降级为标记待审核让人类来做最终决定。反过来当AI提出了一个过于保守的操作比如面对一个有明确截断指令的文件AI却建议标记待审核执行器会查看MetaSkill胶囊如果存在一个事实级别的截断指令而且信号数据也支持这个截断参数执行器就会主动把AI的保守建议升级为截断操作。这就是替换机制也是验证提升模式在信号跌落会话上恢复表现的原因。执行器的所有规则都是预先写好的确定性逻辑没有任何随机性或模糊性。它读取三个输入AI的提案、对应的MetaSkill胶囊包含确定性标签、授权状态和候选操作以及文件的信号分析摘要包含电流跌落时间点、饱和事件时刻和校准容差。然后它输出四种结果之一放行Authorize、否决Veto、替换Substitute或弃权Abstain。给定相同的输入执行器永远输出相同的结果没有任何随机成分。研究团队还特意验证了一件事执行器的效果完全依赖于MetaSkill的确定性标签。当把仅行动技能没有确定性标签的版本接上同样的执行器时执行器因为找不到授权字段只能把几乎所有强力操作都否决掉变成了一个全部降级为标记待审核的过滤器——这和一个永远输出待审核的无脑基线效果相同完全没有帮助。执行器的聪明程度取决于它读到的胶囊有多完整。---六、压力测试如果AI提取阶段出了错会怎样研究团队还做了一个压力测试把第一阶段指令提取的输出从人工标注的黄金答案替换为Claude Sonnet 4.5少样本预测的结果然后观察整套系统的表现是否会大幅下降。结果是在饱和度-A会话上系统表现从κ0.71温和地降至κ0.51在饱和度-B会话上尽管预测结果的精确率只有34.8%也就是说AI多识别了很多其实不是指令的段落执行器仍然在原始AI提案基础上成功恢复了54.6个百分点的准确率在信号跌落会话上由于那个会话的记录本本来就很短只有9个文件过度检测问题更明显预测EDE的表现不理想。这个测试揭示了系统目前最薄弱的环节第一阶段的精确率避免把非指令误判为指令是瓶颈而不是召回率找到所有真实指令。但关键的安全属性没有被破坏在任何场景下系统都没有在没有明确支持的情况下执行强力操作。即使第一阶段出错了执行器仍然保住了安全底线。---**说到底这项研究发现了什么对我们意味着什么**归根结底这项研究回答了一个看似简单、实则深刻的问题当科学家说我不确定AI听懂了吗研究团队发现现有的AI系统几乎都没有听懂。它们要么把不确定当成确定来执行要么把确定淹没在一堆不确定里视而不见。两种失误都会在科学数据处理中造成真实的危害——前者让AI擅自丢弃了研究者自己都没下定论的数据后者让AI保留了研究者明确标记为无效的垃圾数据。Notes2Skills的答案是给每一句话贴上确定性标签然后用一个严格的规则检查器来守住这条标签的含义不让它在从记录本到AI决策的传递链条中悄悄消失。整套系统在三个真实的湿实验室数据会话上是唯一一个能同时避免两种失误的配置。这对普通人意味着什么随着AI助手越来越多地进入科研工作流程科学发现的可靠性将越来越依赖于AI能否准确理解科学家的真实意图——包括他们确定的部分也包括他们不确定的部分。一个不懂犹豫的AI助手就像一个从不听建议只会执行命令的机器人在最需要谨慎的时刻反而最危险。Notes2Skills框架提供了一个让AI听懂犹豫的技术路径对未来的AI辅助科学发现系统有重要的参考意义。当然这项研究目前还有明显的局限性。整个测试只覆盖了纳米孔传感这一个具体的生物物理学应用场景数据量也相对有限48个下游测试文件。构建FreeNotes这样的标注数据集需要跨机构合作、资深研究员参与和反复标注修正规模化推广的成本不容忽视。未来的工作需要在更多科学领域、更多类型的记录本上验证这套框架是否同样有效。有兴趣深入了解技术细节的读者可以通过arXiv编号2606.11897查阅完整论文里面包含了完整的提示词模板、MetaSkill胶囊格式规范和全部实验数据的细节分析。---QAQ1Notes2Skills框架中的不确定性漂白是什么意思A不确定性漂白指的是AI把科学家在实验记录本里的模糊猜测当成确定指令来执行。比如科学家写的是不确定这段数据是否可靠AI却直接把这段数据丢弃就好像科学家明确说了删掉它一样。Notes2Skills通过给每句话贴确定性标签来防止这种误操作。Q2MetaSkill胶囊里的哈希值有什么用A哈希值就像一段文字的数字指纹保证MetaSkill胶囊里引用的原文片段和实验记录本里的原始文字完全一致没有被篡改或误解。任何人都可以用这个哈希值独立验证AI的决策依据保证整个处理过程透明可审计。Q3Notes2Skills系统中执行器的作用是什么A执行器是一个规则明确的检查模块在AI提出处理方案之后进行最终审核。它会对照MetaSkill胶囊里的确定性标签和信号数据判断AI的提案是否有充分依据。如果AI想执行强力操作但依据不足执行器会将其降级为标记待审核如果AI过于保守但存在明确的事实性指令执行器则会主动升级操作。