CANN/ge异步KV缓存传输API

📅 2026/7/4 7:39:59 👁️ 次浏览

# transfer_cache_async【免费下载链接】geGEGraph Engine是面向昇腾的图编译器和执行器提供了计算图优化、多流并行、内存复用和模型下沉等技术手段加速模型执行效率减少模型内存占用。 GE 提供对 PyTorch、TensorFlow 前端的友好接入能力并同时支持 onnx、pb 等主流模型格式的解析与编译。项目地址: https://gitcode.com/cann/ge产品支持情况Atlas A3 训练系列产品/Atlas A3 推理系列产品支持Atlas A2 推理系列产品支持Atlas A2 训练系列产品不支持函数功能异步分层传输KV Cache。函数原型transfer_cache_async(src_cache: KvCache, layer_synchronizer: LayerSynchronizer, transfer_configs: Union[List[TransferConfig], Tuple[TransferConfig]], src_block_indices: Optional[Union[List[int], Tuple[int]]] None, dst_block_indices: Optional[Union[List[int], Tuple[int]]] None, dst_block_memory_size: Optional[int] None) - CacheTask参数说明参数名称数据类型取值说明src_cacheKvCache源Cache。layer_synchronizerLayerSynchronizerLayerSynchronizer的实现类对象transfer_configsUnion[List[TransferConfig], Tuple[TransferConfig]]传输配置列表或元组src_block_indicesOptional[Union[List[int], Tuple[int]]]源Cache的block indices当源Cache为PA场景时设置dst_block_indicesOptional[Union[List[int], Tuple[int]]]目的Cache的block indices当目的Cache为PA场景时设置dst_block_memory_sizeOptional[int]目的Cache每个block占用的内存大小当目的Cache为PA场景时设置。如果源Cache也为PA场景则可省略该参数此时会自动将其设置为源Cache每个block占用的内存大小。该参数设置为0时等同于省略该参数。调用示例from llm_datadist import * ... class LayerSynchronizerImpl(LayerSynchronizer): def synchronize_layer(self, layer_index: int, timeout_in_millis: Optional[int]) - bool: # need control time for transfer layer here. return True num_layers 40 dst_cluster_id 2 # need register decoder kv addr here. decoder_addrs ... assert(len(decoder_addrs) 2*num_layers) transfer_config TransferConfig(dst_cluster_id, decoder_addrs, range(0, num_layers), 0) cache_task kv_cache_manager.transfer_cache_async(kv_cache, LayerSynchronizerImpl(), [transfer_config]) cache_task.synchronize() cache_task.get_results()返回值正常情况下返回CacheTask。传入数据类型错误会抛出TypeError或ValueError异常。传入数据非法会抛出LLMException异常。约束说明当前仅支持src_cache与dst_cache都为连续cache的场景以及src_cache与dst_cache都为PA的场景。使用同一条链路时此接口和pull_cache、pull_blocks接口不支持并发。本接口不支持并发调用。单进程多卡模式下不支持调用该接口。【免费下载链接】geGEGraph Engine是面向昇腾的图编译器和执行器提供了计算图优化、多流并行、内存复用和模型下沉等技术手段加速模型执行效率减少模型内存占用。 GE 提供对 PyTorch、TensorFlow 前端的友好接入能力并同时支持 onnx、pb 等主流模型格式的解析与编译。项目地址: https://gitcode.com/cann/ge创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

一站式音乐播放体验革新：foobox皮肤让foobar2000焕发新生

一站式音乐播放体验革新：foobox皮肤让foobar2000焕发新生【免费下载链接】foobox-cn DUI 配置 for foobar2000 项目地址: https://gitcode.com/GitHub_Trending/fo/foobox-cn 还在为foobar2000那单调乏味的界面而烦恼吗？想象一下，一个…

📅 2026/7/4 7:39:59

5分钟掌握AI音频分离：Retrieval-based-Voice-Conversion-WebUI URV5终极指南

5分钟掌握AI音频分离：Retrieval-based-Voice-Conversion-WebUI URV5终极指南【免费下载链接】Retrieval-based-Voice-Conversion-WebUI Easily train a good VC model with voice data < 10 mins! 项目地址: https://gitcode.com/GitHub_Trending/re/Retrieva…

📅 2026/7/4 7:37:59

群晖NAS百度网盘套件完整指南：5步实现云存储无缝同步

群晖NAS百度网盘套件完整指南：5步实现云存储无缝同步【免费下载链接】synology-baiduNetdisk-package 项目地址: https://gitcode.com/gh_mirrors/sy/synology-baiduNetdisk-package 还在为群晖NAS与百度网盘之间的文件同步问题烦恼吗？synology…

📅 2026/7/4 7:37:59

为什么选择Vault-Operator？对比传统Vault部署的7大优势

为什么选择Vault-Operator？对比传统Vault部署的7大优势【免费下载链接】vault-operator Run and manage Vault on Kubernetes simply and securely 项目地址: https://gitcode.com/gh_mirrors/va/vault-operator 在Kubernetes生态系统中，安全密钥…

📅 2026/7/4 8:36:05

$北京理工大学LaTeX论文模板BIThesis：学术写作的终极解决方案$

北京理工大学LaTeX论文模板BIThesis：学术写作的终极解决方案

北京理工大学LaTeX论文模板BIThesis：学术写作的终极解决方案【免费下载链接】BIThesis 📖 北京理工大学非官方 LaTeX 模板集合，包含本科、研究生毕业设计模板及更多。🎉 （更多文档请访问 wiki 和 release 中的手册&am…

📅 2026/7/4 8:36:05

DNN安全审计：Unicode规范化与路径遍历的复合攻击链分析

1. 项目概述：一次针对DNN平台的深度安全审计最近在复盘一些历史安全案例时，我重新审视了DNN（DotNetNuke）这个老牌ASP.NET内容管理系统。它曾经在中小企业、教育机构甚至一些大型门户网站中非常流行，虽然现在热度不如新…

📅 2026/7/4 8:36:05

Photon OS技术解析：面向云原生基础设施的极简容器主机架构设计

Photon OS技术解析：面向云原生基础设施的极简容器主机架构设计【免费下载链接】photon Minimal Linux container host 项目地址: https://gitcode.com/gh_mirrors/phot/photon Photon OS作为VMware推出的开源精简Linux操作系统，专为云原生工作负…

📅 2026/7/4 8:36:05

FluidNet调试技巧：常见问题排查与解决方案大全

FluidNet调试技巧：常见问题排查与解决方案大全【免费下载链接】FluidNet Accelerating Eulerian Fluid Simulation With Convolutional Networks 项目地址: https://gitcode.com/gh_mirrors/fl/FluidNet FluidNet是一个基于卷积网络的欧拉流体模拟加速项目&…

📅 2026/7/4 8:36:05

Unity3DRuntimeTransformGizmo的5个高级技巧：多对象选择与变换优化

Unity3DRuntimeTransformGizmo的5个高级技巧：多对象选择与变换优化【免费下载链接】Unity3DRuntimeTransformGizmo A runtime transform gizmo similar to unitys editor so you can translate (move, rotate, scale) objects at runtime. 项目地址: https://git…

📅 2026/7/4 8:34:03

Axure RP中文界面终极解决方案：3分钟告别英文困扰

Axure RP中文界面终极解决方案：3分钟告别英文困扰【免费下载链接】axure-cn Chinese language file for Axure RP. Axure RP 简体中文语言包。支持 Axure 11、10、9。不定期更新。项目地址: https://gitcode.com/gh_mirrors/ax/axure-cn 还在为Axure RP的英…

📅 2026/7/4 0:00:50

STM32F745VG与MC6470 IMU的高性能姿态控制系统设计

1. MC6470与STM32F745VG的黄金组合解析在工业自动化和机器人控制领域，传感器与微控制器的协同工作能力直接决定了系统的响应速度和定位精度。MC6470作为一款6自由度惯性测量单元(6DOF IMU)，与STM32F745VG这款基于ARM Cortex-M7内核的高性能微控制器组合&…

📅 2026/7/4 0:00:50

本地部署SAM Audio音频语义分割模型完整指南

1. 项目概述：为什么要在本地跑 SAM Audio？这不只是“能用”，而是“必须用”SAM Audio——全称是 Segment Anything Model for Audio，不是 Meta 那个视觉领域的 SAM（Segment Anything Model）的简单移植&…

📅 2026/7/4 0:00:50

管理者的六个层次

📅 2026/7/4 0:21:29

AI Coding 六个月真实ROI账本：产品经理的血泪教训，研发的冷静忠告

6个月前的2025年12月，Boris Cherny 公开宣布自己卸载了 IDE。一时间，Vibe Coding 成了全行业最热的话题。6个月后，当我们回过头来拉一份真实账本，发现事情远没有"一句话生成一个App"那么浪漫。本文从产品经理和研发两个…

📅 2026/7/2 17:37:53

审计来了，数据权限全开——审计走了，怎么确保权限全部关掉？

引言：审计结束三个月了，审计员的权限还没关某城商行每年按照监管要求开展至少一次数据安全审计。审计期间，内审部门需要抽样检查各类业务数据——交易流水、客户信息、员工操作日志、权限配置记录。这些数据分布在不同系统中，审计…

📅 2026/7/2 17:37:51

餐饮老板必看：扫码点餐小程序3步搞定，别再让顾客干等了！

目录第一步：选对模板，省心一半第二步：打开扫码点餐功能开启功能按钮桌台管理与桌码生成第三步：个性化设计，打造品牌感调整点餐页面设置点餐规则你还在让顾客站着排队点餐吗？2025年&#xff…

📅 2026/7/4 5:07:51

基于Dify与DeepSeek构建私有知识库问答系统实战指南

在业务中快速构建一个能理解私有文档、准确回答专业问题的智能助手，是很多开发团队面临的共同挑战。传统方案往往需要从零开始搭建复杂的 RAG（检索增强生成）系统，涉及文档解析、向量化、检索、大模型调用等多个环节，整…

📅 2026/7/4 5:10:18

FAE放射组学分析工具：医学影像特征探索的完整解决方案

FAE放射组学分析工具：医学影像特征探索的完整解决方案【免费下载链接】FAE FeAture Explorer 项目地址: https://gitcode.com/gh_mirrors/fae/FAE 你是否曾经面对海量医学影像数据感到无从下手？想要从CT、MRI等影像中提取有价值的定量特征&#…

📅 2026/7/3 10:20:06

相关新闻