工作机会
>
Shenzhen

    运维开发工程师(异构计算ai训练及框架) - Shenzhen, 中国 - Tencent

    Tencent
    Tencent Shenzhen, 中国

    发现在: Talent CN S2 - 6天前

    Tencent background
    描述
    运维开发工程师(异构计算AI训练及框架) 深圳 分享

    分享岗位

    方式1:复制岗位链接

    方式2:分享岗位海报

    手机扫描二维码分享

    收藏 CSIG 点击了解更多BG信息 技术 五年以上工作经验 更新于年04月07日 岗位职责
  • 1.支持客户的AI训练和推理方案设计和相关的技术支持,给出合理的产品方案建议;2.协助客户解决在大规模集群训练中遇到的问题,例如软硬件版本兼容问题导致的模型加载异常、模型训练相率降低等;3.熟悉RDMA网络通信技术,梳理当前的网络架构,推动网络架构的优化,完善故障诊断和快速恢复的运维能力;4.熟悉训练的中各环节设计的相关指标,推动内部监控运维体系能力的优化建设,通过分析相关性能指标能提前分析训练中的隐患、主动给与客户优化建议;5.梳理客户的核心需求,提炼为普适性的产品能力,推动研发团队提升产品体验。
  • 岗位要求
  • 1.熟悉大规模分布式训练,熟练掌握不同分布式训练框架,如Megatron-LM, DeepSpeed;2.熟悉不同分布式并行策略(DP, TP, PP等),具备并行调优经验;3.熟悉一个或多个垂直业务场景(优先AIGC、LLM);4.深入了解GPU原理,掌握CUDA或Triton编程能力,及GPU性能profiling;5.熟练使用或参与开发算子库、优化库、社区项目,包括但不限于Faster Transformer, TensorRT, cuDNN, cuBLAS, sass, oneDNN, ZenDNN, ROCm等;6.熟练掌握并深入了解DL框架实现原理(优先Tensorflow、Pytorch、DDP);7.熟练掌握Python和C++,有社区开发经验者优先;8.熟悉RDMA网络通信技术,有RDMA高性能网络设计及运营经验者优先;9.熟悉NCCL实现源码者优先,对集合通信要有深入了解,包括但不限于Allreduce,AlltoALL等,并且有丰富的问题排查经验;10.对基础网络架构相关技术有深入了解,掌握主流网络相关协议如BGP、QOS、PFC、ECN、ROCE等;11.对云网络相关技术有深入了解,包括但不限于VPC、负责均衡、NAT、Bare Metal Server、K8S等。

  • Tencent

    运维开发工程师

    发现在: Talent CN S2 - 3天前


    Tencent Shenzhen, 中国

    运维开发工程师 深圳 分享 分享岗位 · 方式1:复制岗位链接 · 方式2:分享岗位海报 · 手机扫描二维码分享 · 收藏 S3 点击了解更多BG信息 技术 三年以上工作经验 更新于年04月22日 岗位职责 1.负责以腾讯云TKE+TSF架构的IT环境的设计和建设;2.负责云产品的监控预警的设计和落地,保障IT服务的稳定运营;3.负责HRIT系统的日常技术运维以及新IT系统的部署和发布;4.负责相关DecOps运维支撑工具平台的开发和建设。 · 岗位要求 1.本科以上学历,计算机相关专业,3年以上运维经验,具有强烈的责任心、分析问题和解决 ...


  • Siemens Energy Shenzhen, 中国 全职

    嵌入式软件开发工程师 Embedded Software Develop Engineer · About the Role · Location China Guangdong Sheng Shenzhen Company Siemens Energy (Shenzhen) Co. Ltd. Organization EVP Global Functions Business Unit Innovation Full / Part time Full-time Experience Level Mid-level Professional Re ...

  • Tencent

    START云游戏web开发工程师

    发现在: Talent CN S2 - 5天前


    Tencent Shenzhen, 中国

    START云游戏web开发工程师 深圳 分享 分享岗位 · 方式1:复制岗位链接 · 方式2:分享岗位海报 · 手机扫描二维码分享 · 收藏 IEG 点击了解更多BG信息 技术 三年以上工作经验 更新于年04月21日 岗位职责 1.负责WEB云游戏产品开发;2.负责START平台产品运营系统建设;3.优化WEB运营平台通用性,易用性开发。 · 岗位要求 1.计算机或相关专业本科及以上学历,3年以上前端开发经验;2.熟练使用JS/CSS/HTML,掌握前端框架(如React/Vue等);3.掌握4.移动端产品的开发经验(小程序/App/RN ...

  • Tencent

    富媒体平台高级运维工程师

    发现在: Talent CN S2 - 6天前


    Tencent Shenzhen, 中国

    富媒体平台高级运维工程师 深圳 分享 分享岗位 · 方式1:复制岗位链接 · 方式2:分享岗位海报 · 手机扫描二维码分享 · 收藏 TEG 点击了解更多BG信息 技术 三年以上工作经验 更新于年04月11日 岗位职责 1.负责微信、QQ(图片、视频、文件)富媒体平台的日常运维保障工作;2.负责富媒体平台架构优化、容量管理、成本优化、运营规划;3.负责富媒体平台容灾体系建设、优化与实践;4.负责富媒体平台连续性建设,设计、实施和维护混沌工程实践,确保业务在日常运营、节日突发、抗攻击等场景下均能稳定运营;5.负责富媒体平台质量体系建设,建设全 ...

  • Tencent

    大数据运维工程师

    发现在: Talent CN S2 - 4天前


    Tencent Shenzhen, 中国

    大数据运维工程师 深圳 分享 分享岗位 · 方式1:复制岗位链接 · 方式2:分享岗位海报 · 手机扫描二维码分享 · 收藏 TEG 点击了解更多BG信息 技术 三年以上工作经验 更新于年04月06日 岗位职责 1.负责腾讯大数据平台运维工作,通过设计、开发运维平台,解决运营过程中质量和效率问题;2.负责梳理现有服务流程、规范和存在的问题,并给出可行方案;3.负责前后端运营效率工具开发,包括但不限于:容量管理平台、DevOps、覆盖率、自动化、健康度等。 · 岗位要求 1.熟悉hadoop、Flink、Olap等大数据生态技术,有过集群搭 ...

  • Tencent

    海外计费运维高级工程师

    发现在: Talent CN S2 - 6天前


    Tencent Shenzhen, 中国

    海外计费运维高级工程师 深圳 分享 分享岗位 · 方式1:复制岗位链接 · 方式2:分享岗位海报 · 手机扫描二维码分享 · 收藏 TEG 点击了解更多BG信息 技术 三年以上工作经验 更新于年04月13日 岗位职责 1.从事米大师海外计费相关网站类/后台类系统运营维护、规划建设工作;版本上线变更/业务联调/现网监控/故障处理等日常运维工作,保障现网安全运营质量;在线上系统生命周期的各阶段进行全方位的稳定性评审,发现薄弱点,组织和实施各类改进措施、预案演练等工作;2.维护大型 K8S 集群及数据库、消息队列中间件,保障业务高度稳定性;提供云 ...

  • Tencent

    腾讯云专有云高级运维工程师

    发现在: Talent CN S2 - 1天前


    Tencent Shenzhen, 中国

    腾讯云专有云高级运维工程师 深圳 分享 分享岗位 · 方式1:复制岗位链接 · 方式2:分享岗位海报 · 手机扫描二维码分享 · 收藏 CSIG 点击了解更多BG信息 技术 五年以上工作经验 更新于年04月09日 在腾讯,技术人解决问题的激情永不熄灭。无论是面对产品、程序的问题,还是生活与人的问题,腾讯技术人都力图交出漂亮的答卷。我们善用科学工具,以强大的思维之力创造世界,为卓越的产品体验保驾护航,也为公司和产品策略提出宝贵的洞见,用技术引领新的变革。这里的每位成员,既传承着长久以来的务实文化,又时刻以创新眼光瞄准大海星辰。我们十分期待你加 ...

  • Tencent

    腾讯云网络运维工程师

    发现在: Talent CN S2 - 6天前


    Tencent Shenzhen, 中国

    腾讯云网络运维工程师 深圳 分享 分享岗位 · 方式1:复制岗位链接 · 方式2:分享岗位海报 · 手机扫描二维码分享 · 收藏 CSIG 点击了解更多BG信息 技术 五年以上工作经验 更新于年01月30日 岗位职责 1.负责腾讯云机房网络、VPC、负载均衡平台的规划,建设,不断提升运维效率;2.负责对网络问题分析解决,形成方法论,提升团队技术能力;3.负责通过技术手段、流程制度提升平台网络可用性;4.负责分析业务不合理、不高效地方,提出优化改进方案并推进实施。 · 岗位要求 1.3年以上相关工作经验,熟悉TCP/IP协议,了解SDN相关 ...

  • Tencent

    腾讯公益业务运维工程师

    发现在: Talent CN S2 - 3天前


    Tencent Shenzhen, 中国

    腾讯公益业务运维工程师 深圳 分享 分享岗位 · 方式1:复制岗位链接 · 方式2:分享岗位海报 · 手机扫描二维码分享 · 收藏 CDG 点击了解更多BG信息 技术 三年以上工作经验 更新于年03月29日 在腾讯,优秀的技术运营工程师始终赋能业务,关注技术运营的质量、成本、效率和安全。他们不仅是经验丰富的问题解决者,更是具有全局视角的架构师,通过自动化工具的建设,强力提升平台效能,助力业务发展。 · 岗位职责 1.负责腾讯公益平台稳定性,保障SLA;2.负责基础设施的部署规划和系统容灾高可用建设、平台的可用性监控设计;3.负责平台稳定性 ...

  • Tencent

    高级运维工程师(专有云)(云计算)

    发现在: Talent CN S2 - 2天前


    Tencent Shenzhen, 中国

    高级运维工程师(专有云)(云计算) 深圳 分享 分享岗位 · 方式1:复制岗位链接 · 方式2:分享岗位海报 · 手机扫描二维码分享 · 收藏 CSIG 点击了解更多BG信息 技术 三年以上工作经验 更新于年03月22日 岗位职责 1.参与运维支撑平台建设,开发工具,提升运营效率;2.对线上事故进行快速响应并建立机制、平台提升处理效率;3.数据推动运维优化,牵头技术运营的整体规划。 · 岗位要求 1.全日制本科及以上学历,3年以上系统运维或研发工作经验;有运维管理工作优先;2.熟悉网络和系统、数据库相关技术,有较为丰富的网络、linux、 ...

  • Tencent

    腾讯云高级大数据运维工程师((深圳))

    发现在: Talent CN S2 - 4天前


    Tencent Shenzhen, 中国

    腾讯云高级大数据运维工程师((深圳)) 深圳 分享 分享岗位 · 方式1:复制岗位链接 · 方式2:分享岗位海报 · 手机扫描二维码分享 · 收藏 CSIG 点击了解更多BG信息 技术 五年以上工作经验 更新于年04月17日 岗位职责 1.负责腾讯云大数据基础运维和客户问题解决,基于腾讯云提供的EMR、Elasticsearch、TCHouse产品,解决客户在产品使用过程中遇到的问题,为客户业务提供最佳服务体验;2.负责报障大数据产品服务稳定性,包括全局数智化监控、服务架构容灾、容量管理等基础运维能力建设,保障大数据服务SLA;3.负责运维 ...

  • Tencent

    腾讯云平台技术运营(业务运维)

    发现在: Talent CN S2 - 5小时前


    Tencent Shenzhen, 中国

    腾讯云平台技术运营(业务运维) 深圳 分享 分享岗位 · 方式1:复制岗位链接 · 方式2:分享岗位海报 · 手机扫描二维码分享 · 收藏 CSIG 点击了解更多BG信息 技术 三年以上工作经验 更新于年04月26日 岗位职责 1.负责腾讯云平台业务发布变更故障处理等日常运维工作;2.从架构优化、监控覆盖、变更管控、实战演练等维度保障业务的稳定性。 · 岗位要求 1.计算机或相关专业本科或以上学历;2.熟练使用Linux/unix操作系统,精通Shell编程,熟悉TCP/IP、 3.具备K8S等容器平台运维经验;4.具备系统稳定运营的高可 ...

  • Haier Group

    it运维和服务助理工程师

    发现在: Talent CN S2 - 2天前


    Haier Group Shenzhen, 中国

    全部机会 / 万链共享生态圈 / 生物医疗平台 / 数字公卫子链群 / IT运维和服务助理工程师 机会编号:JD · IT运维和服务助理工程师 薪资面议 · 深圳市 · 本科及以上 · 1年以上 · | · 收藏 我要推荐 · 职责描述 1.执行呼入、呼出业务、后台审核及在线咨询的处理工作; · 2.负责综合受理各类业务,为客户提供业务咨询、信息查询、故障报修、发货、售后信息登记、审核及妥善解决客户投诉等服务; · 3.收集和整理客户信息,及时录入客服系统日志; · 4.负责执行客户日常的电话回访工作; · 5.负责售后过程中的跟进和工作协 ...

  • Tencent

    后台开发工程师

    发现在: Talent CN S2 - 4天前


    Tencent Shenzhen, 中国

    后台开发工程师 深圳 分享 分享岗位 · 方式1:复制岗位链接 · 方式2:分享岗位海报 · 手机扫描二维码分享 · 收藏 TEG 点击了解更多BG信息 技术 五年以上工作经验 更新于年04月29日 岗位职责 1.负责数据安全相关系统的设计、开发和维护,保证系统的高可用性和稳定性;2.负责AI相关数据处理和AI应用研发工作;3.负责后台系统研效提升相关工作,协调并提升团队研发效率、质量。 · 岗位要求 1.熟练掌握Golang编程语言,具备python开发能力,有丰富的开发经验; 同时掌握c++者优先;2.熟悉Linux操作系统、熟悉网络 ...

  • Tencent

    后台开发工程师#

    发现在: Talent CN S2 - 6天前


    Tencent Shenzhen, 中国

    #后台开发工程师# 深圳 分享 分享岗位 · 方式1:复制岗位链接 · 方式2:分享岗位海报 · 手机扫描二维码分享 · 收藏 PCG 点击了解更多BG信息 技术 三年以上工作经验 更新于年04月11日 岗位职责 1.负责云游戏后台相关业务的框架搭建和需求逻辑开发,确保系统的高可用性和稳定性;2.负责云游戏用户体验优化的相关后端开发工作,包括后端架构升级及性能调优,持续提升服务性能和用户体验;3.负责云游戏场景下创新类产品的技术预研、架构设计和开发工作,支持灵活快速的能力验证。 · 岗位要求 1.本科及以上学历,计算机相关专业,2年以上后 ...

  • Tencent

    数据开发工程师

    发现在: Talent CN S2 - 2天前


    Tencent Shenzhen, 中国

    数据开发工程师 深圳 分享 分享岗位 · 方式1:复制岗位链接 · 方式2:分享岗位海报 · 手机扫描二维码分享 · 收藏 CDG 点击了解更多BG信息 技术 三年以上工作经验 更新于年04月23日 岗位职责 1.负责离线和实时数据仓库建设,完善和优化业务数据链路;2.负责数据提取,olap,报表等开发工作,搭建业务相关的数据指标和报表体系;3.配合产品和运营,进行产品和运营核心策略的分析建模。 · 岗位要求 1.3年及以上大数据项目开发/调优/架构相关经验,具有交易行业数据平台数据架构和开发工作经验优先;2.熟练掌握Java/Scala ...

  • Tencent

    高级应用开发工程师

    发现在: Talent CN S2 - 2天前


    Tencent Shenzhen, 中国

    高级应用开发工程师 深圳 分享 分享岗位 · 方式1:复制岗位链接 · 方式2:分享岗位海报 · 手机扫描二维码分享 · 收藏 Overseas Functional System 点击了解更多BG信息 技术 五年以上工作经验 更新于年04月12日 在腾讯,技术人解决问题的激情永不熄灭。无论是面对产品、程序的问题,还是生活与人的问题,腾讯技术人都力图交出漂亮的答卷。我们善用科学工具,以强大的思维之力创造世界,为卓越的产品体验保驾护航,也为公司和产品策略提出宝贵的洞见,用技术引领新的变革。这里的每位成员,既传承着长久以来的务实文化,又时刻以创 ...

  • Tencent

    游戏图形开发工程师

    发现在: Talent CN S2 - 6天前


    Tencent Shenzhen, 中国

    游戏图形开发工程师 深圳 分享 分享岗位 · 方式1:复制岗位链接 · 方式2:分享岗位海报 · 手机扫描二维码分享 · 收藏 IEG 点击了解更多BG信息 技术 五年以上工作经验 更新于年04月16日 岗位职责 1.与内部资深专家共事,解决源源不断的技术难题,做行业最前沿的探索研究;2.对接外部游戏研发团队,把控渲染管线与方案;3.推动与建立适合项目的美术风格的渲染管线;4.针对需求定制增改引擎底层功能,开发引擎相关特性(光照,渲染,管线,资源管理等);5.与设计师一起合作完成高级图形效果开发;6.游戏中图形相关性能优化及兼容性问题解决。 ...

  • Tencent

    资深服务器开发工程师

    发现在: Talent CN S2 - 6天前


    Tencent Shenzhen, 中国

    资深服务器开发工程师 深圳 分享 分享岗位 · 方式1:复制岗位链接 · 方式2:分享岗位海报 · 手机扫描二维码分享 · 收藏 IEG 点击了解更多BG信息 技术 五年以上工作经验 更新于年02月21日 岗位职责 1.负责游戏后台架构设计、系统调优、关键逻辑系统设计和开发工作;2.负责UE项目的服务器性能优化、全球架构、国内外网络优化等技术难点的攻关;3.负责游戏后台的可持续交付,外网疑难问题分析和解决。 · 岗位要求 1.三年以上游戏后台工作经验,有全栈研发工作经历优化;2.对各类异构的技术栈有深入的钻研能力,具备优秀的分析和解决问题 ...

  • Haier Group

    嵌入式开发工程师

    发现在: Talent CN S2 - 2天前


    Haier Group Shenzhen, 中国

    全部机会 / 智家定制生态圈 / 智家大脑平台 / AIOT终端平台 / 嵌入式开发工程师 机会编号:JD · 嵌入式开发工程师 薪资面议 · 深圳市 · 本科及以上 · 3年以上 · 收藏 我要推荐 · 职责描述 基于嵌入式(Linux、RTOS)操作系统,开发摄像头、门铃、门锁等音视频类设备,负责设计和开发嵌入式固件。 · - 负责嵌入式设备的功能需求分析及架构设计。 · - 开发音、视频的编解码算法及相关的图像处理算法。 · - 设计和实现高效的音视频数据采集、处理、封装、传输方案。 · - 在Linux和RTOS系统上进行WiFi、屏 ...