Welcome

RLinf 图解-Workflow 与 Data

RLinf图解-Framework 与 Single Controller RLinf图解-Channel 与 Worker 通信 RLinf图解-Dynamic Scheduler RLinf图解-Workflow 与 Data Rlinf 中的 worker group和 runner 是组织算法的 workflow，通过 Runner 实现 MPMD的流程控制，通过 Worker Group实现 SPMD 的分布式控制，本章以具身 RL 训练为例子，详解一下 worker...…

2026-05-09 • 继续阅读
RLinf 图解-Dynamic Scheduler

RLinf图解-Framework 与 Single Controller RLinf图解-Channel 与 Worker 通信 RLinf图解-Dynamic Scheduler RLinf图解-Workflow 与 Data 在真实大规模训练时，我们往往要使用 DP+PP+TP 等并行化技术，可以通过这篇文章详细了解，从而实现超大参数模型的分布式的高利用率训练。那么在 RLinf 内部的动态调度，如让 GPU 可以更高效的被使用？本文将探究这个问题。1. Dynamic ...…

2026-04-16 • 继续阅读
RLinf 图解-Channel 与 Worker 通信

RLinf图解-Framework 与 Single Controller RLinf图解-Channel 与 Worker 通信 RLinf图解-Dynamic Scheduler RLinf图解-Workflow 与 Data Channel作为 RLinf 中的常用通信组件，起到了组件间目的向串联功能，从而通过 channel 中的数据流动驱动 worker 的业务逻辑处理。同样 worker 本身分布在集群的各个节点上，本身也需要进行通信，那么他们实现的呢？本文将一探究...…

2026-03-28 • 继续阅读
RLinf图解-Framework 与 Single Controller

RLinf图解-Framework 与 Single Controller RLinf图解-Channel 与 Worker 通信 RLinf图解-Dynamic Scheduler RLinf图解-Workflow 与 Data1. 背景强化学习目前越来越多的应用在机器学习的各个方面: 大语言模型后训练、Agent 场景训练、VLA 训练等等。对于每种场景，强化学习遇到问题瓶颈侧重点各不相同。大体可以总结如下: 多角色共同参与，实时交互，数据交换量较大且动态 ...…

2026-03-08 • 继续阅读
图解flyteML编排-propeller控制器

图解flyteML编排-综述图解flyteML编排-flytekit SDK 图解flyteML编排-admin服务器图解flyteML编排-propeller控制器 Flyte propeller作为集群当中真正的执行器，负责CRD的监听、集群资源的分配、三方子系统的交互和向admin server反馈等等1.总体架构propeller命令行有3个子命令，总体架构图如下 init-certs：用于生成webhook访问api-server的证书 webhook：用于向...…

2025-11-06 • 继续阅读
图解flyteML编排-admin服务器

图解flyteML编排-综述图解flyteML编排-flytekit SDK 图解flyteML编排-admin服务器图解flyteML编排-propeller控制器 Flyte admin作为整个训练任务请求的中枢服务，对外承接WEB UI、SDK、CMD等工具链的通信服务，并与对象存储、DB联动，存储业务类数据，制定WF计划，编译WF模型成CRD，发送和收集第三方平台信息等。下面我们详细来看一下admin的业务流程。1.总体架构admin代码库中有两个入口，一个是ser...…

2025-11-05 • 继续阅读
图解flyteML编排-flytekit SDK

图解flyteML编排-综述图解flyteML编排-flytekit SDK 图解flyteML编排-admin服务器图解flyteML编排-propeller控制器 FlyteML的一个比较备受欢迎的特点，就是SDK的易用性，不仅可方便的集成到训练代码中，而且其丰富的插件系统可以非常方便的想数据处理、分布式计算、模型训练、部署扩展。本章主要针对flyte SDK(flytekit)进行拓展讲解，了解其中的主逻辑和原理。1. 使用与架构1.1 SDK使用flytekit使用...…

2025-11-03 • 继续阅读
图解flyteML编排-综述

图解flyteML编排-综述图解flyteML编排-flytekit SDK 图解flyteML编排-admin服务器图解flyteML编排-propeller控制器 Flyte 是一个面向机器学习、数据工程和分析工作流的云原生工作流编排平台。它由Lyft开发并开源，目前是Linux Foundation AI & Data下的一个孵化级项目。它的核心设计目标是让用户能够以可复现、可扩展、类型安全的方式定义、运行和管理复杂的数据/ML工作流。目前该项目已经可以进...…

2025-10-23 • 继续阅读
图解vllm-model之model和attention_backend

图解vllm-原理与架构图解vllm-推理服务与引擎图解vllm-调度器与Block分配图解vllm-执行器与worker 图解vllm-model之model和attention_backend 通过上文可以了解到，执行器在调用推理接口后，最终将请求传入worker中的ModelRunner进行推理计算，这时如何使用CUDA加速模型attention和forward的推理。另外，对于我们定制化的model是如何加入到vllm的推理框架来使用的。通过本文你可以了解到这一...…

2024-10-03 • 继续阅读
图解vllm-执行器与worker

图解vllm-原理与架构图解vllm-推理服务与引擎图解vllm-调度器与Block分配图解vllm-执行器与worker 图解vllm-model之model和attention_backend 执行器（Executor）是对model worker的一层封装，LLMEngine会根据engine_config来创建确定创建哪个Executor，本文将以RayGPUExecutor为例进行介绍，Ray作为较为常用模型分布式框架，应用场景比较有代表性, 可以实现推理过程...…

2024-10-01 • 继续阅读