昇腾/GE LLM-DataDist拉取KV块API
📅 2026/7/4 7:58:00
👁️ 次浏览
# pull_blocks【免费下载链接】geGEGraph Engine是面向昇腾的图编译器和执行器提供了计算图优化、多流并行、内存复用和模型下沉等技术手段加速模型执行效率减少模型内存占用。 GE 提供对 PyTorch、TensorFlow 前端的友好接入能力并同时支持 onnx、pb 等主流模型格式的解析与编译。项目地址: https://gitcode.com/cann/ge产品支持情况Atlas A3 训练系列产品/Atlas A3 推理系列产品支持Atlas A2 推理系列产品支持Atlas A2 训练系列产品不支持函数功能PagedAttention场景下根据BlocksCacheKey通过block列表的方式从对应的Prompt节点拉取KV到本地KV Cache仅当LLMRole为DECODER时可调用。函数原型pull_blocks(prompt_cache_key: BlocksCacheKey, decoder_kv_cache: KvCache, prompt_blocks: List[int], decoder_blocks: List[int], **kwargs)参数说明参数名称数据类型取值说明prompt_cache_keyBlocksCacheKey需要被拉取的BlocksCacheKey。decoder_kv_cacheKvCache目标KV Cache。prompt_blocksList[int]Prompt的block index列表。decoder_blocksList[int]Decode的block index列表。**kwargsNA这个是Python函数的可扩展参数通用写法一般通过keyvalue的方式直接传入参数。可选参数的详细信息请参考表1。表 1**kwargs的可选参数参数名称数据类型取值说明src_layer_rangeOptional[range]可选参数用于按层pull kv场景。传输源的layer的范围step只支持1。不设置时为传输所有layer。需要注意这里是layer的index而不是tensor的index即1个layer对应连续N个tensor(K/V)这里要求分配内存时必须是KV,...,KV排布不支持其他场景。N为tensor_num_per_layer的取值默认为2。dst_layer_rangeOptional[range]可选参数用于按层pull kv场景。传输目标的layer的范围step只支持1。不设置时为传输所有layer。需要注意这里是layer的index而不是tensor的index即1个layer对应连续N个tensor(K/V)这里要求分配内存时必须是KV,...,KV排布不支持其他场景。N为tensor_num_per_layer的取值默认为2。tensor_num_per_layerOptional[int]可选参数表示每层的tensor的数量默认值是2取值范围是[1,cache的tensor总数]。当src_layer_range或dst_layer_range取值为非默认值时 tensor_num_per_layer可以保持默认值也可以输入其他值输入其他值的时tensor_num_per_layer的取值还需要被当前cache的tensor总数整除。调用示例from llm_datadist import * ... kv_cache_manager.pull_blocks(prompt_cache_key, kv_cache, [0, 1], [2, 3]) # 使能layer_range功能示例 kv_cache_manager.pull_blocks(prompt_cache_key, kv_cache, [0, 1], [2, 3], src_layer_rangerange(2), dst_layer_rangerange(2))返回值正常情况下无返回值。参数错误可能抛出TypeError或ValueError。执行时间超过sync_kv_timeout配置会抛出LLMException异常。约束说明使用同一条链路时此接口和transfer_cache_async接口不支持并发。本接口不能被多线程并发调用。【免费下载链接】geGEGraph Engine是面向昇腾的图编译器和执行器提供了计算图优化、多流并行、内存复用和模型下沉等技术手段加速模型执行效率减少模型内存占用。 GE 提供对 PyTorch、TensorFlow 前端的友好接入能力并同时支持 onnx、pb 等主流模型格式的解析与编译。项目地址: https://gitcode.com/cann/ge创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考
1. 这不是“选哪个”的问题,而是“怎么用对”的问题最近在好几个技术群和开发者社区里,频繁看到类似这样的提问:“国产模型GLM、Minimax、Kimi、豆包的 coding plan 大家都在用哪个?”——表面看是个工具选择题,实则暴…
📅 2026/7/4 7:58:00
LunarBar macOS农历插件完整攻略:传统节日的数字守护者 【免费下载链接】LunarBar A compact lunar calendar for your macOS menu bar. 项目地址: https://gitcode.com/gh_mirrors/lu/LunarBar
你是否曾在忙碌的工作中突然意识到错过了重要的传统节日&#…
📅 2026/7/4 7:56:00
pix2pixHD完整入门指南:如何用AI生成2048x1024高清图像的终极教程 【免费下载链接】pix2pixHD Synthesizing and manipulating 2048x1024 images with conditional GANs 项目地址: https://gitcode.com/gh_mirrors/pi/pix2pixHD
pix2pixHD是一个基于条件GAN的…
📅 2026/7/4 7:56:00
1. 这不是一次普通模型发布:Mythos 的真实分量与行业震感 你可能已经刷到过“Anthropic 发布 Claude Mythos”这条新闻,标题里带着“Preview”“Gated Release”这类字眼,很容易被当成又一场科技公司的例行发布会。但如果你真这么想ÿ…
📅 2026/7/4 18:17:07
高效使用BOTW存档编辑器的完整操作指南 【免费下载链接】BOTW-Save-Editor-GUI A Work in Progress Save Editor for BOTW 项目地址: https://gitcode.com/gh_mirrors/bo/BOTW-Save-Editor-GUI
BOTW存档编辑器是一款专为《塞尔达传说:旷野之息》玩家设计的开…
📅 2026/7/4 18:17:07
1. 套期保值比率的核心价值 在金融衍生品交易中,套期保值比率(Hedge Ratio)就像汽车的方向盘助力系统——它决定了你需要用多少对冲头寸来抵消现货市场的风险暴露。我从业十年间见过太多交易员在这个参数上栽跟头:有人用1:1的简单…
📅 2026/7/4 18:17:07
1. 项目概述:为什么漏洞管理不是“打补丁”那么简单? 干了十几年信息安全,我见过太多团队把“漏洞管理”简单地等同于“装个扫描器,定期扫一扫,然后催着开发打补丁”。结果往往是扫描报告堆积如山,高危漏洞…
📅 2026/7/4 18:17:07
Python自动化终极指南:3分钟完成U校园网课答题的完整解决方案 【免费下载链接】AutoUnipus U校园脚本,支持全自动答题,百分百正确 2024最新版 项目地址: https://gitcode.com/gh_mirrors/au/AutoUnipus
在数字化学习时代,U校园作为广泛使用的在线…
📅 2026/7/4 18:17:07
🚀 30款热门AI模型一站整合,DeepSeek/GLM/Claude 随心用,限时 5 折。 👉 点击领海量免费额度 这次我们来看一个近期在海外技术圈引发热议的新事物:Google 的 AI Agent 产品 Gemini Spark 。它不是一个简单的聊天机…
📅 2026/7/4 18:15:07
Axure RP中文界面终极解决方案:3分钟告别英文困扰 【免费下载链接】axure-cn Chinese language file for Axure RP. Axure RP 简体中文语言包。支持 Axure 11、10、9。不定期更新。 项目地址: https://gitcode.com/gh_mirrors/ax/axure-cn
还在为Axure RP的英…
📅 2026/7/4 0:00:50
1. MC6470与STM32F745VG的黄金组合解析在工业自动化和机器人控制领域,传感器与微控制器的协同工作能力直接决定了系统的响应速度和定位精度。MC6470作为一款6自由度惯性测量单元(6DOF IMU),与STM32F745VG这款基于ARM Cortex-M7内核的高性能微控制器组合&…
📅 2026/7/4 0:00:50
1. 项目概述:为什么要在本地跑 SAM Audio?这不只是“能用”,而是“必须用”SAM Audio——全称是 Segment Anything Model for Audio,不是 Meta 那个视觉领域的 SAM(Segment Anything Model)的简单移植&…
📅 2026/7/4 0:00:50
6个月前的2025年12月,Boris Cherny 公开宣布自己卸载了 IDE。一时间,Vibe Coding 成了全行业最热的话题。6个月后,当我们回过头来拉一份真实账本,发现事情远没有"一句话生成一个App"那么浪漫。本文从产品经理和研发两个…
📅 2026/7/2 17:37:53
引言:审计结束三个月了,审计员的权限还没关某城商行每年按照监管要求开展至少一次数据安全审计。审计期间,内审部门需要抽样检查各类业务数据——交易流水、客户信息、员工操作日志、权限配置记录。这些数据分布在不同系统中,审计…
📅 2026/7/2 17:37:51
目录
第一步:选对模板,省心一半
第二步:打开扫码点餐功能
开启功能按钮
桌台管理与桌码生成
第三步:个性化设计,打造品牌感
调整点餐页面
设置点餐规则 你还在让顾客站着排队点餐吗?2025年ÿ…
📅 2026/7/4 5:07:51
在业务中快速构建一个能理解私有文档、准确回答专业问题的智能助手,是很多开发团队面临的共同挑战。传统方案往往需要从零开始搭建复杂的 RAG(检索增强生成)系统,涉及文档解析、向量化、检索、大模型调用等多个环节,整…
📅 2026/7/4 5:10:18
FAE放射组学分析工具:医学影像特征探索的完整解决方案 【免费下载链接】FAE FeAture Explorer 项目地址: https://gitcode.com/gh_mirrors/fae/FAE
你是否曾经面对海量医学影像数据感到无从下手?想要从CT、MRI等影像中提取有价值的定量特征&#…
📅 2026/7/4 17:36:47