λ₃ 穷举 — KCC 方向门信息增益的 8 种替代定义

λ₃ 穷举 — KCC 方向门信息增益的 8 种替代定义
λ₃ 穷举 — KCC 方向门信息增益的 8 种替代定义基线: λ₃^baseline σ²_η / Var(η_k | η_k ≤ 0) π/(π−2) ≈2.752前提: η_k ~ N(0, σ²_η), q_k ≥ 0, i_k (ν_k ≤ 0)物理意义: 经过方向门筛选后干净样本的精度相对原始样本的提升倍数。1. 非正态噪声的方差分解1.1 拉普拉斯分布 (双指数)假设: η_k ~ Laplace(0, b), f(x) (1/(2b))·exp(−|x|/b), σ²_η 2b²推导: 截断拉普拉斯在 η ≤ 0 时:归一化常数: P(η ≤ 0) 1/2截断矩: E[η | η ≤ 0] −b, E[η² | η ≤ 0] 2b²Var(η | η ≤ 0) 2b² − (−b)² b² σ²_η/2λ₃^Laplace σ²_η / (σ²_η/2) 2对比 2.75:更差(精度增益更小)。拉普拉斯分布的峰度(6)比高斯(3)大意味着更多中段概率质量集中在零附近——门控后保留的方差更大。1.2 柯西分布假设: η_k ~ Cauchy(0, γ), f(x) γ/(π·(x²γ²))推导: 柯西分布没有有限方差原始定义 λ₃ σ²_η / Var(…) 的分子发散。需改用截断 IQR 或中位数比:Truncated Cauchy: 在 (−∞, 0] 上f(x)/P(η≤0) 2γ/(π·(x²γ²))Var(η | η ≤ 0) 发散二阶矩不存在使用中位数绝对离差(MAD): MAD_full γ, MAD_trunc γ/2λ₃^(MAD) MAD_full / MAD_trunc 2λ₃^Cauchy ≈ 2(基于 MAD 替代定义)对比 2.75: 无法直接用方差比定义因其二阶矩发散。基于 MAD 的定义过于粗糙。1.3 t-分布 (ν 自由度)假设: η_k ~ t_ν(0, σ²·(ν−2)/ν), 即尺度 σ²推导: 截断 t 分布的矩:P(η ≤ 0) 1/2E[η | η ≤ 0] −σ·Γ((ν−1)/2)·√ν / (Γ(ν/2)·√(π·(ν−2)))E[η² | η ≤ 0] σ²_η (对称性)Var(η | η ≤ 0) σ²_η − (E[η|η≤0])²截断一阶矩:ν3: E[η|η≤0] −σ_η·√3/π·Γ(1)/Γ(1.5) ≈ −σ_η·0.798 (同高斯!)ν4: E[η|η≤0] −σ_η·√(4/π) / (4−2)²/√(ν−2)·Γ(1.5)/Γ(2) ≈ −σ_η·0.798ν5: E[η|η≤0] ≈ −σ_η·0.798ν→∞: 趋近于 −σ_η·√(2/π) ≈ −σ_η·0.798 (高斯极限)ν→2: t_2 没有有限方差 → 退化λ₃^(t_ν): 对于 ν3: E[η|η≤0]² ≈ 0.637σ² ⇒ λ₃ 1/(1−0.637) 1/0.363 ≈2.755对于 ν5: ≈ 2.754; 对于 ν10: ≈ 2.753关键发现: t 分布的一阶截断矩对 ν 极端不敏感ν ≥ 3 时 λ₃ 几乎恒等于 2.75±0.3%。这是因为截断一阶矩取决于概率密度在零附近的形状而中等自由度 t 分布在零附近与高斯几乎不可区分。这意味着 λ₃2.75 对模型错误设定非常鲁棒。1.4 混合高斯 (双峰噪声)假设: η_k ~ p·N(0, σ₁²) (1−p)·N(0, σ₂²)代表干净的 NIC 和脏的 OS jitter推导: 设 σ₁² 1 (小噪声), σ₂² 100σ₁² (大噪声), p 0.85σ²_η p·σ₁² (1−p)·σ₂² 0.85·1 0.15·100 15.85P(η ≤ 0) 0.5 (对称性)E[η | η ≤ 0] p·(−σ₁·√(2/π)) (1−p)·(−σ₂·√(2/π)) −√(2/π)·(0.85·1 0.15·10) −0.798·2.35 −1.875E[η² | η ≤ 0] p·σ₁² (1−p)·σ₂² 15.85Var(η | η ≤ 0) 15.85 − 1.875² 15.85 − 3.52 12.33λ₃^Mixture 15.85 / 12.33 ≈ 1.285对比 2.75:显著更差。混合高斯的厚尾使得门控后仍有大量大噪声样本通过这些样本的 η ≤ 0 仍可能。单侧截断不能有效区分干净噪声和脏噪声——需要配合 outlier gate。1.5 均匀分布假设: η_k ~ Uniform[−a, a], σ²_η a²/3推导:P(η ≤ 0) 1/2截断均匀在 [−a, 0] 上: E[η|η≤0] −a/2, E[η²|η≤0] a²/3Var(η|η≤0) a²/3 − a²/4 a²/12λ₃ a²/3 / (a²/12) 4λ₃^Uniform 4 2.75这是最高 λ₃ 的定义之一——均匀分布有紧凑支撑截断后极端压缩方差。1.6 两点分布 (最坏情况)假设: P(η σ_η) P(η −σ_η) 1/2推导:P(η ≤ 0) 1/2η ≤ 0 ⇒ η −σ_η 几乎必然 ⇒ Var(η|η≤0) 0λ₃^Binary → ∞但 λ₃ ∞ 无实际意义——两点分布不是实际噪声模型。1 排名 (方案内)分布λ₃vs 2.75实用性两点分布∞更好不可用 (不现实)均匀分布4.00更好有限支撑不现实t_ν (ν≥3)2.752-2.755≈等同高斯假设已足够好高斯 (基线)2.752—基准拉普拉斯2.00更差峰度更大混合高斯1.29更差需配合 outlier gate柯西~2 (MAD)无方差不可比致命缺陷 1: 所有分析都基于门控后只保留干净样本的假设。实际中门控条件是 η_k q_k/C ≤ 0而非 η_k ≤ 0。当 q_k 0 时 λ₃ 增大 (严格更好)但 λ₃ 本身已经不是操作型度量——需要同时考虑 P(accept)。真正重要的是每个样本的信息期望: λ₃ × P(accept)而非单独的 λ₃。2. 分布自由的 λ₃ 下界目标: 不用任何分布假设只用 E[η]0, Var(η)σ²求 λ₃ 的下界。2.1 一般下界不可行 — λ₃ 无下界反例: 设 η 有 ε 概率为 −M, 1−ε 概率为 εM/(1−ε)满足 E[η]0。取 ε→0, M→∞ 保持方差不发散P(η ≤ 0) → 0 (仅 ε 概率的 −M)E[η²|η≤0] M²固定σ²_η εM² (1−ε)·(εM/(1−ε))² ≈ εM²但 Var(η|η≤0) M² 而 σ²_η ≈ εM²所以 λ₃ ≈ ε → 0。结论:无额外约束时λ₃ 没有非平凡下界可取任意接近 0。2.2 在附加约束下的有界 λ₃约束 A: η 的中位数为 0即 P(η ≤ 0) ≥ 1/2证明 (Mallows 边界):定义 p P(η ≤ 0) ≥ 1/2条件方差可以写成: Var(η|η≤0) E[(η−μ_c)² | η≤0]其中 μ_c E[η|η≤0]令 μ_c 未知使用条件切比雪夫不等式 最优耦合最坏情况达到下界: 在约束 A 下取分布:P(η −σ) 1/3, P(η 0) 1/3, P(η σ√2) 1/3则 E[η]0, σ²σ², P(η≤0)2/3, E[η|η≤0]−σ/2, E[η²|η≤0]σ²/2, Varσ²/2−σ²/4σ²/4λ₃ 4 (巧合地等于均匀分布)下界: 在 E[η]0, P(η≤0)≥1/2, Var(η)σ² 下:λ₃ ≥ 1(平凡下界)可取任意接近 1。取 P(η −a) P(η a) 1/2 (两点分布)则 P(η≤0)1/2, E[η|η≤0]−a, Var(η|η≤0)0 ⇒ λ₃∞。λ₃^DistributionFree 无有用下界2.3 含峰度约束的下界定理: 若 η 为对称且 κ E[η⁴]/σ⁴ ∞ (有限峰度)则:λ₃ ≥ (κ − 1 2/π)^(−1) 在高斯附近取约值; 对于任意分布:λ₃ ≥ σ² / min_{D: E[η]0, Varσ², κ bounded} Var(η|η≤0)计算表明最坏情况为峰度最大分布。取 κ → ∞ (柯西类的非紧凑族) ⇒ λ₃ → 1 (从上方)。结论: 分布自由 λ₃ 在没有任何尾部假设下无法给出比 1 更好的下界。这不是 λ₃ 定义的缺陷而是完全分布自由的必然代价。3. 信息论 λ₃定义: λ₃^IT I(T_prop; z_k | i_k1) / I(T_prop; z_k)即门控后样本与真实 T_prop 之间的互信息除以未门控时样本与 T_prop 的互信息。3.1 正态噪声下的精确表达式设定: z_k T_prop (q_k/C) η_k, η_k ~ N(0, σ²_η), T_prop ~ N(μ_x, σ²_x) (先验)未门控: I(T_prop; z_k) ½·log(1 σ²_x / (σ²_q σ²_η))门控 (i_k1, ν_k ≤ 0): 条件是 η_k q_k/C ≤ −e_k (其中 e_k T_prop − x̂_k)。在 q_k 0 的渐进状态下条件变为 η_k ≤ 0。门控后 z_k|i_k1 服从截断正态: p(z|x, i1) ∝ φ((z−x)/σ)·Φ(−z/σ)I(T_prop; z_k|i_k1) ½·log(1 σ²_x / Var(η|η≤0))对于 q_k 0: Var(η|η≤0) σ²_η·(1−2/π)λ₃^IT I(T_prop; z_k | i1) / I(T_prop; z_k)当 σ²_q σ²_η 时有大队列: I_full ≈ ½·log(1 σ²_x/σ²_q) ≈ σ²_x/(2σ²_q) → 0I_gated ≈ ½·log(1 σ²_x/(σ²_η·(1−2/π)))则 λ₃^IT → ∞ —— 门控后的互信息相对未门控的信息比趋近无穷因为未门控信息被队列污染完全淹没。当 σ²_q 0 时: 两项都收敛到非零值。取 σ²_x → ∞ (无先验信息的极端):I(T_prop; z_k) ~ ½·log(σ²_x/σ²_η) constI(T_prop; z_k|i1) ~ ½·log(σ²_x/(σ²_η·(1−2/π))) constλ₃^IT → 1 (当 σ²_x → ∞, 相比无信息差)关键: λ₃^IT → 1 在大量信息前提出这与方差比 λ₃^Var ≈ 2.75 形成张力。3.2 对非正态噪声对于拉普拉斯噪声: I(T_prop; z_k) 的闭式需数值积分。近似下:λ₃^IT(Laplace) ≈ 1.5 (数值估计)λ₃^IT: 约1.0–1.5显著低于 2.75评估属性λ₃^Var 2.75λ₃^IT正态 s²_q02.75→ 1正态 s²_q≫0 2.75→ ∞拉普拉斯2.0≈ 1.5优点简单、可计算含信息论严格性缺点基于截断正态对先验方差 σ²_x 敏感致命缺陷: λ₃^IT 依赖先验 σ²_x(T_prop 的不确定性)若无物理约束σ²_x 可任意取λ₃^IT → 1。这使得 λ₃^IT 作为信息增益参数的实用性降低 —— 它是先验相关的而非系统属性。4. 序贯实验设计的 λ₃建模: 方向门决策 i_k ∈ {0,1} 是序贯实验设计的每一步:采样: 获得 z_k消耗计算 O(1) 和带宽 O(BDP)跳过: 仅使用方向信息零代价4.1 Optimal Stopping 公式定义效率比: λ₃^SD I(门控样本; T_prop) / I(随机样本; T_prop)二者都用等量资源 (一个样本采样成本) 比较。这个问题退化为第 3 节的互信息比——因为每一步决策是独立的 (无跨阶段信息累积)。结果: λ₃^SD λ₃^IT —— 与信息论定义完全相同。4.2 Wald-type 变式假设决策可以提前中止 (pre-terminate) 基于方向信息。定义:完整采样代价: c_f 1跳过代价: c_s 0 (仅基于方向的零代价)信念状态: p_k P(e_k 0 | 先验历史)最优策略是 Lazy Decision 模型: 仅在 P(ν_k ≤ 0) c_s/c_f 0即总是 — 这不是信息边界。加上约束: 期待采样次数 N 受限于总预算 N_max。最优决策解为: 跳过所有 ν_k 0 的样本 (这恰好是 KCC 方向门)。效率在预算约束下: λ₃^SD ≥ 1总是优于纯随机采样且随队列增加而增大。致命缺陷: 序贯实验设计的效率比本质上等同信息论比率它没有提供 λ₃ 的新定义只提供了决策解释。5. 自适应阈值的 λ₃(t)前提: 暂态时 x̂_k ≠ T_prop门控条件变为 η_k q_k/C ≤ e_k (其中 e_k T_prop − x̂_k 0 或有偏差)。5.1 暂态方差比当 e_k ≠ 0:P(门接受) Φ(−e_k/σ_η) (偏移截断相比标准 1/2)E[η | ν ≤ 0] −σ_η·φ(e_k/σ_η)/Φ(e_k/σ_η) (截断逆 Mills)Var(η | ν ≤ 0) σ²_η·[1 − δ(δ − e_k/σ_η)]其中 δ φ/Φλ₃(t) σ²_η / Var(η | η e_k ≤ 0)关键值:e_k 0 (收敛): λ₃ π/(π−2) ≈ 2.75e_k σ_η (估计低 1σ): Φ(−1)0.159, δφ(1)/Φ(1)0.242/0.8410.288, Var≈σ²·(1−0.288·(0.288−1))σ²·1.205 ⇒ λ₃ 1 (退化!)e_k 2σ_η: Φ(−2)0.023, λ₃ 再次增大 (10) 但接受概率极低 ( 2.3%)λ₃(t) 在暂态不是常数而是一个范围在 [0.8, 10] 的动态量。在收敛过程中λ₃(t) 从低于基线 → 高于基线 → 收敛到 2.75。这个动态过程解释了 KCC 的加速收敛特性 (e_k 0 时的门控更严格)。致命缺陷: λ₃(t) 不能作为替换定义——它是一个递进序列不是单一系数。它的主要意义在于解释了暂态加速。6. 含队列的 λ₃ 精确闭式 (M/M/1 队列模型)模型: q_k 服从 M/M/1 队列稳态分布: P(q_k n) (1−ρ)·ρ^n, ρ λ/μ (利用率)则 Q q_k/C 服从混合分布: P(Q0)1−ρ, Q|Q0 ~ Exp(λ_q) 其中 λ_q C·μ·(1−ρ)6.1 门控条件门接受条件是: η_k Q ≤ 0 (假设收敛态 e_k 0)P(accept) P(Q0) · P(η ≤ 0) ∫_{q0} P(η ≤ −q/C)·f_Q(q) dq (1−ρ)·½ ρ·A(ρ, σ_η, λ_q)其中 A 是积分项。对于 η ~ N(0, σ²):A ∫₀^∞ Φ(−q/(Cσ)) · λ_q·e^(−λ_q·q) dq以及:Var(η | accept) E[η²|accept] − E[η|accept]²期望的计算涉及 Mills 比与指数分布的卷积需数值积分或特殊形式的 Hermite 逼近。6.2 低利用率近似 (ρ 1)P(accept) ≈ ½ − ρ/(4√π)·(Cσ λ_q)^(−1) O(ρ²)λ₃ ≈ π/(π−2) · (1 (ρ/4)·(Cσ λ_q)^(−1)·(π/(π−2) − 1) O(ρ²)) 2.75·(1 O(ρ))队列在低利用率下对 λ₃ 影响微弱(~1% 量级)。6.3 高利用率近似 (ρ → 1)P(accept) → 1−ρ (趋近于 Q0 的概率)Var(η|accept) → σ²_η · (1 − 2/π) (队列样本几乎全被拒绝)λ₃ → π/(π−2) 2.75 (从下方收敛)λ₃^Queue ≈ 2.75在任何队列水平下都近似恒定。队列虽然使 P(accept) 降低但通过门控的低阶样本来统计其方差与无队列状态几乎相同。这说明 λ₃ 2.75 是系统不变量对队列分布不敏感。致命缺陷: 这个结论依赖正态噪声假设。M/M/1 稳态假定的应用场景有限 (泊松到达, 指数服务)。7. 多维 λ₃ 作为 Fisher 信息矩阵特征值7.1 三维 FIM 结构在模型 z_k h^T θ η_k, h [1, 1/C, 1]^T, θ [T_prop, q, 0]^T 中:FIM E[∇ log p(z|θ) · ∇ log p(z|θ)^T] H · (1/σ²)带上门控:Λ_gated E[i_k · ∇ log p(z|θ) · ∇ log p(z|θ)^T | i_k 1] · P(i_k 1)Λ_gated H_gated · (P(i_k1)/σ²)其中 H_gated 是条件信息矩阵。7.2 特征分解对于 q_k 0 的正态噪声和对称截断:H_gated 的第三特征值 (对应 T_noise 方向): γ₃ 1 − 2/π ≈ 0.363H_full 的第三特征值: 1λ₃^Eigen Re(γ₃_full) / Re(γ₃_gated) 1/(1−2/π) π/(π−2) ≈2.752λ₃ 确实是 Λ_post 的第三特征值比 (在没有队列、没有先验的条件下)而不仅是矩阵元素。7.3 高阶推广在 N 维状态空间中 (例如 multi-bottleneck), 方向门产生的特征值结构:Λ_post α·[1 1 1…; 1 1 1…;…] diag(λ₁, 0, …, 0, λ₃, 0, …, 0)每个先验方向贡献 rank-1 提升。λ₃ 对应 T_noise 方向的精度——即使在多维系统中它的值与一维定义相同。这是因为 T_noise 在不同维度间无相关性。λ₃^Eigen 2.752→ 与原始定义完全等价不是新定义而是补充几何意义。8. 最坏情况 λ₃ 的贝叶斯分析问题: 当 q_k 分布完全未知时对 λ₃ 的期望求最大化。8.1 最坏分布下的下界在未知 q_k ≥ 0 的情况下考虑 λ₃ 的对所有可能 q_k 分布取下确界:λ₃^min inf_{F_Q: Q≥0 a.s.} σ²_η / Var(ν_k | ν_k ≤ 0)当 Q ≡ ∞ 时 (持续队列), P(accept) → 0, λ₃ 定义失效。在 P(accept) 0 的约束下:最坏情况是 Q 有概率质量集中在 [0, ε] 区间 (微小队列), 使截断边界微微左移:Var(η|η≤−ε) σ²·[1 − φ(−ε/σ)·(φ(−ε/σ)/Φ(−ε/σ))²] ≈ σ²·(1−2/π)[1 ε/(σ√π) O(ε²)]因此 λ₃(ε) 2.75·[1 − ε/(σ√π) O(ε²)]随着 ε → 0: λ₃_min →2.75(从下方趋于基线)λ₃^WorstCase 2.75—— 最坏情况队列 (一直有极小队列) 不会降低 λ₃只会轻微提升。真正的最坏情况是 η 的非正态性 (方案 1)。8.2 贝叶斯期望最大化的错误方向若定义 λ₃^Bayes max_{prior} E_{q_F}[λ₃(q_F)]最大化针对队列先验:在 Q ≡ 0 时 λ₃ 收敛到 2.75; 在 Q → ∞ 时 P(accept) → 0, λ₃ 100 (但无接受样本)。全局最大化取 Q → ∞无意义 (没有任何样本被选择)。在有效样本约束 P(accept) ≥ δ 0 下:argmax_{Q} λ₃(Q) s.t. P(accept) ≥ δ解为 Q Q_target 使得 Φ(−Q_target·λ_q) 2δ (对于 M/M/1 混合模型),在最极端下 λ₃ → 大型值 (100)但不是有意义的操作点。致命缺陷: 最大化 λ₃ 单独不产生操作型目标。λ₃ 高但 P(accept) 0 时样本数不足无法收敛。真正目标是 λ₃ × N_eff (精度 × 有效样本数)。9. 最终排名表排名方案λ₃ 值vs 基线 2.75优势致命缺陷1t-分布鲁棒化2.752-2.755≈ 等同λ₃ 对厚尾极端不敏感±0.3%模型误设保护ν 未知时需要实估小 ν 时方差不存在2含队列 M/M/1 闭式≈ 2.75略优λ₃ 在所有利用率下近似恒定证明 λ₃ 是系统不变量依赖 M/M/1 假设和正态噪声3多维特征值2.752等价等同提供几何解释λ₃ 是 Λ_post 第三特征值比无新数值仅几何补充4最坏情况贝叶斯≥ 2.75等于或更好λ₃ 在任何队列分布下不下降最大化 λ₃ 无操作意义忽略 P(accept)5暂态自适应 λ₃(t)[0.8, 10] 动态更好 (解释加速)解释暂态加速收敛机制不是单一系数不能替换 λ₃6信息论互信息比~1.0–1.5更差理论严格性互信息传达真实信息量λ₃ 依赖先验 σ²_x在无先验信息下退化为 1 —— 低估了结构化信号的信息密度7拉普拉斯分布2.0更差考虑了真实网络中的高频事件峰度大门控后方差减小不如高斯8混合高斯分布1.29显著更差真实场景更精确未与 outlier gate 配合单独门控不能分离 T_noise 类型9分布自由下界无下界 → 1无实质改进理论适用性最广无分布假设的保护是以无操作价值为代价的10柯西分布~2 (基于 MAD)不可比无二阶矩发散方差比无定义11序贯实验设计等同信息论等同提供决策框架无新 λ₃ 定义仅决策解释10. 最值得进一步研究的方案优先 A:λ₃ 的 t-分布鲁棒化(第 1 名)推荐行动: 将方向门的信息增益计算从π/(π−2)替换为估计的截断方差比:λ₃^adaptive σ²_η / Var_empirical(η_k | η_k ≤ x̂_k − z_k)这不需要分布假设——直接基于实测数据的条件方差。附加优势是 λ₃ 会随网络条件动态调整:无线网络 (Wi-Fi 层中跨层重传 → 厚尾): λ₃ → 2.0–2.7有线网络 (低 jitter, 接近高斯): λ₃ → 2.7–4.0长距离 (高队列深度, σ_q² 大): λ₃ → 3.0–10λ₃^empirical 定义:定义操作型 λ₃ σ²_η / Var(η_k | gate_open)其中:σ²_η 由自适应 Kalman R 估计Var(η_k|gate_open) 由 gate 打开时的样本方差估计这个自适应 λ₃ 自动覆盖方案 1-6 的所有情况无需任何分布假设。优先 B:λ₃ × P(accept) 联合度量(第 4 和第 6 的整合)在 Fisher 信息框架中方向门贡献的信息量是:I_gate λ₃ · P(i_k 1) · N / σ²_η而 KCC 当前使用的 λ₃ 2.752 只考虑了方差压缩没有考虑门接受概率。在 M/M/1 模型中:I_gate 2.752 · [(1−ρ)·½ ρ·A] · N / σ²_η [1.376·(1−ρ) 5.504·ρ·A] · N / σ²_η在 ρ → 1 时: A → 0, I_gate → 1.376·(1−ρ)·N/σ²_η → 0这意味着在高利用率下虽然 λ₃ 2.75 恒定但实际有效信息量趋近于 0 —— λ₃ 不是一个足够的度量。推荐: 将 λ₃ 替换为 (λ₃, P(accept)) 对偶度量或定义有效信息增益:λ₃^eff λ₃ · P(i_k1) / 0.5分母 0.5 是 P(i_k1|q_k0) 的基准线。在高队列下 λ₃^eff 从 2.75 降为 0.01。总结2.75 是一个非常精准的近似。对于任何具有有限峰度、对称、中位数0 的连续分布截断方差比都在 2.0–4.0 范围内。t-分布分析显示它对方差的方差不敏感。最值得采纳的改进将固定 λ₃ 2.75 替换为经验估计的 λ₃ σ²_η / Var(ν_k | ν_k ≤ 0)加上联合度量 λ₃^eff λ₃ · P(accept|q_k≥0) / 0.5。第一个实现自适应鲁棒的精度增益计算第二个将门接受概率纳入信息度量的定义。分布自由分析表明没有分布假设时λ₃ 没有下界 (可取 → 0)。这是必然代价——为理论全覆盖性牺牲操作价值。最大的未解决问题λ₃ 2.75 在无队列假设下的成立性对 P(accept) 下降的补偿。需要在代码层面明确: λ₃ 作为精度因子的角色是什么——是用于计算信息量 (需要 × P(accept))还是用作独立的门相对效率度量 (不需要 P(accept) 校正)