Welcome logo

Welcome

Yan Feng's blog


  • Blog
  • Projects
  • Github
  • Email
  1. RLinf 图解-Workflow 与 Data

    RLinf图解-Framework 与 Single Controller RLinf图解-Channel 与 Worker 通信 RLinf图解-Dynamic Scheduler RLinf图解-Workflow 与 Data Rlinf 中的 worker group和 runner 是组织算法的 workflow,通过 Runner 实现 MPMD的流程控制,通过 Worker Group实现 SPMD 的分布式控制,本章以具身 RL 训练为例子,详解一下 worker...…

    2026-05-09 • 继续阅读

  2. RLinf 图解-Dynamic Scheduler

    RLinf图解-Framework 与 Single Controller RLinf图解-Channel 与 Worker 通信 RLinf图解-Dynamic Scheduler RLinf图解-Workflow 与 Data 在真实大规模训练时,我们往往要使用 DP+PP+TP 等并行化技术,可以通过这篇文章详细了解,从而实现超大参数模型的分布式的高利用率训练。那么在 RLinf 内部的动态调度,如让 GPU 可以更高效的被使用?本文将探究这个问题。1. Dynamic ...…

    2026-04-16 • 继续阅读

  3. RLinf 图解-Channel 与 Worker 通信

    RLinf图解-Framework 与 Single Controller RLinf图解-Channel 与 Worker 通信 RLinf图解-Dynamic Scheduler RLinf图解-Workflow 与 Data Channel作为 RLinf 中的常用通信组件,起到了组件间目的向串联功能,从而通过 channel 中的数据流动驱动 worker 的业务逻辑处理。同样 worker 本身分布在集群的各个节点上,本身也需要进行通信,那么他们实现的呢?本文将一探究...…

    2026-03-28 • 继续阅读

  4. RLinf图解-Framework 与 Single Controller

    RLinf图解-Framework 与 Single Controller RLinf图解-Channel 与 Worker 通信 RLinf图解-Dynamic Scheduler RLinf图解-Workflow 与 Data1. 背景强化学习目前越来越多的应用在机器学习的各个方面: 大语言模型后训练、Agent 场景训练、VLA 训练等等。对于每种场景,强化学习遇到问题瓶颈侧重点各不相同。大体可以总结如下: 多角色共同参与,实时交互,数据交换量较大且动态 ...…

    2026-03-08 • 继续阅读

  5. 图解flyteML编排-propeller控制器

    图解flyteML编排-综述 图解flyteML编排-flytekit SDK 图解flyteML编排-admin服务器 图解flyteML编排-propeller控制器 Flyte propeller作为集群当中真正的执行器,负责CRD的监听、集群资源的分配、三方子系统的交互和向admin server反馈等等1.总体架构propeller命令行有3个子命令,总体架构图如下 init-certs:用于生成webhook访问api-server的证书 webhook:用于向...…

    2025-11-06 • 继续阅读

  6. 图解flyteML编排-admin服务器

    图解flyteML编排-综述 图解flyteML编排-flytekit SDK 图解flyteML编排-admin服务器 图解flyteML编排-propeller控制器 Flyte admin作为整个训练任务请求的中枢服务,对外承接WEB UI、SDK、CMD等工具链的通信服务,并与对象存储、DB联动,存储业务类数据,制定WF计划,编译WF模型成CRD,发送和收集第三方平台信息等。下面我们详细来看一下admin的业务流程。1.总体架构admin代码库中有两个入口,一个是ser...…

    2025-11-05 • 继续阅读

  7. 图解flyteML编排-flytekit SDK

    图解flyteML编排-综述 图解flyteML编排-flytekit SDK 图解flyteML编排-admin服务器 图解flyteML编排-propeller控制器 FlyteML的一个比较备受欢迎的特点,就是SDK的易用性,不仅可方便的集成到训练代码中,而且其丰富的插件系统可以非常方便的想数据处理、分布式计算、模型训练、部署扩展。本章主要针对flyte SDK(flytekit)进行拓展讲解,了解其中的主逻辑和原理。1. 使用与架构1.1 SDK使用flytekit使用...…

    2025-11-03 • 继续阅读

  8. 图解flyteML编排-综述

    图解flyteML编排-综述 图解flyteML编排-flytekit SDK 图解flyteML编排-admin服务器 图解flyteML编排-propeller控制器 Flyte 是一个面向机器学习、数据工程和分析工作流的云原生工作流编排平台。它由Lyft开发并开源,目前是Linux Foundation AI & Data下的一个孵化级项目。它的核心设计目标是让用户能够以 可复现、可扩展、类型安全 的方式定义、运行和管理复杂的数据/ML工作流。目前该项目已经可以进...…

    2025-10-23 • 继续阅读

  9. 图解vllm-model之model和attention_backend

    图解vllm-原理与架构 图解vllm-推理服务与引擎 图解vllm-调度器与Block分配 图解vllm-执行器与worker 图解vllm-model之model和attention_backend 通过上文可以了解到,执行器在调用推理接口后,最终将请求传入worker中的ModelRunner进行推理计算,这时如何使用CUDA加速模型attention和forward的推理。另外,对于我们定制化的model是如何加入到vllm的推理框架来使用的。通过本文你可以了解到这一...…

    2024-10-03 • 继续阅读

  10. 图解vllm-执行器与worker

    图解vllm-原理与架构 图解vllm-推理服务与引擎 图解vllm-调度器与Block分配 图解vllm-执行器与worker 图解vllm-model之model和attention_backend 执行器(Executor)是对model worker的一层封装,LLMEngine会根据engine_config来创建确定创建哪个Executor,本文将以RayGPUExecutor为例进行介绍,Ray作为较为常用模型分布式框架,应用场景比较有代表性, 可以实现推理过程...…

    2024-10-01 • 继续阅读


1 / 2 更早 →
本站点采用知识共享 署名-非商业性使用-相同方式共享 4.0 国际 许可协议 由 Jekyll 于 2026-05-09 生成,本站由 @fy2462 创建 - © 2026