欢迎光临管理者范文网
当前位置:管理者范文网 > 安全管理 > 岗位职责 > 工程岗位职责

sre工程师岗位职责14篇

更新时间:2024-11-20 查看人数:55

sre工程师岗位职责

第1篇 sre高级工程师-效率工程职位描述与岗位职责任职要求

职位描述:

工作职责:

sre 团队参与并改善服务的整个生命周期 - 从启动、设计、部署、运维和优化,职责包括但不限于:

1、用性数据采集、统计、监控、报警系统开发与维护

2、积极参与业务方案讨论与设计,并推进优化服务的响应延迟、性能问题,提升服务可用性

3、服务的变更管理、容量规划及对应工具平台建设

4、实行事故应急机制,参与及推进事故本质原因的调查及改进

任职要求:

1、良好的设计和编码品味,热爱编程

2、深刻理解计算机原理,有良好的数据结构和算法基础

3、对稳定性和性能有超乎寻常的关注

4、掌握 web 后端开发技术: 协议、架构、存储、缓存、安全等

5、较强的主人翁意识、自我驱动,发现问题、动手解决问题的能力

6、具备良好的沟通、团队协作能力

第2篇 sre运维研发工程师职位描述与岗位职责任职要求

职位描述:

工作职责:

1、负责字节跳动云平台的系统高可用架构和规划;

2、设计并实现能够保障线上大规模集群的迭代、自动化运维平台;

3、负责量化云服务的服务质量,提升服务sla标准;

4、支持平台用户线上需求和解决用户遇到的各种问题;

5、升整体云平台的运维管理效率。

任职要求:

1、有大型系统的运维管理经验,2年以上相关工作经验;

2、精通linu_系统、shell/python/c等编程语言、网络tcp/ip协议、数据库等,动手能力强;

3、较强的分析和解决问题的能力,强烈责任感、 缜密的逻辑思维能力;

4、有较强的系统问题分析经验和能力,能够解决复杂的系统问题;

5、有大型云计算公司从业经验,对openstack系统开发、测试、运维、应用工作经验者,熟悉源码优先;

6、有监控系统构建研发经验优先。

第3篇 aml机器学习平台sre工程师职位描述与岗位职责任职要求

职位描述:

工作职责:

1、aml: applied machine learning

2、设计和搭建高可靠的机器学习系统

3、负责机器学习服务各环节 (样本生成,样本管理,模型训练,模型服务,实时更新)的稳定运转

4、硬件资源的管理与规划

任职要求:

1、扎实的编程基础,熟练掌握 c/c++, python,uni_ shell

2、有大型分布式软件 (如spark, yarn和tensorflow等) 的资源管理和任务调度经验

3、熟悉操作系统和计算机体系结构

加分项:

1、熟悉至少一种主流深度学习编程框架(tensorflow/caffe/m_net),熟悉其底层架构和实现机制

2、有过开源社区经历

第4篇 sre基础设施研发工程师职位描述与岗位职责任职要求

职位描述:

工作职责:

为头条各服务提供坚实的运行时基础设施支撑,职责包括但不限于:

1、根据业务特点,选型、设计和开发高容错能力的调度控制系统,提高自动化运维水平;

2、优化改进超大规模集群上服务和批处理任务的调度能力,提高资源利用率,提高在复杂网络环境下服务的可用性;

3、维护和开发服务发现系统,保证极高的可用性水平;

4、保证metric系统的可用性,在高吞吐能力下保证较低的查询延迟;

5、研发和改进在多类型负载混布环境下的资源隔离技术(cpu,内存,磁盘io,网络io等)。

任职要求:

1、熟悉以下至少一门语言:c/c++,python, java/scala, go;

2、熟悉linu_系统常用debug, profiling工具, 具有定位疑难bug的能力;

3、能够设计、实现高可靠、高性能的分布式系统;

4、较强的自我驱动,发现问题、动手解决问题能力;

5、对技术有强烈热情和好奇心,能快速学习新程序设计语言和工具;

6、具有以下一项或多项经验者优先:mesos/yarn/kubernetes的二次开发经验;熟悉linu_ 内核/sdn网络;l_c/docker/rkt等容器引擎的研发经验;consul/etcd/zookeeper的运维和开发经验。

第5篇 sre工程师-抖音/火山职位描述与岗位职责任职要求

职位描述:

工作职责:

1、负责抖音、火山等海内外亿级产品的大规模集群的sre和运维优化工作

2、负责核心服务的持续集成和交付,高效和自动化的运维优化,提升服务的稳定性和研发效率

3、负责大规模集群的云平台化、资源优化、sla保障。

任职要求:

1、大规模系统的sre或运维经验,熟悉linu_、网络等系统运维的技能;

2、对大规模分布式系统的设计,分析,故障排查有强烈兴趣

3、开发语言python/shell;

4、有以下经验者优先:云平台相关经验(阿里云、aws等)

第6篇 高级sre工程师岗位职责任职要求

高级sre工程师岗位职责

工作职责:

1、建设网络评估体系;

2、全球化产品的网络调优、故障排除等;

任职要求:

1、有海量用户的产品开发运维经验,对网络劫持、故障有能力迅速定位并解决;

2、熟悉tcp/ip、http、http协议,了解http2、quic等协议;

3、熟悉linu_环境,熟悉socket编程,熟悉c++/python/golang之一;

4、熟悉网络交换/路由原理;

5、对用户体验有极致的追求,有用户至上的强烈热情;

6、有过海外2c产品运维和开发经验者优先;

7、可以接受偶尔短期国外出差。

第7篇 高级网络sre工程师职位描述与岗位职责任职要求

职位描述:

工作职责:

1、建设网络评估体系;

2、全球化产品的网络调优、故障排除等;

任职要求:

1、有海量用户的产品开发运维经验,对网络劫持、故障有能力迅速定位并解决;

2、熟悉tcp/ip、http、http协议,了解http2、quic等协议;

3、熟悉linu_环境,熟悉socket编程,熟悉c++/python/golang之一;

4、熟悉网络交换/路由原理;

5、对用户体验有极致的追求,有用户至上的强烈热情;

6、有过海外2c产品运维和开发经验者优先;

7、可以接受偶尔短期国外出差。

第8篇 视频架构sre(高级)工程师职位描述与岗位职责任职要求

职位描述:

工作职责:

1、参与并改进视频云基础服务的整个生命周期,包括设计/架构/部署/运维以及持续优化

2、通过设计及监控可用性,延时等服务整体健康性指标,来运维视频云平台服务

3、通过自动化/系统化的方式,以可持续维护的目标来扩容服务,并且主动提出和实施改进服务稳定性及运维灵活性的方案, 提升整体视频云平台的运维管理效率

4、负责量化视频云服务的服务质量,提升服务sla标准

任职要求:

1、有大型系统的运维管理经验,2年以上相关工作经验;

2、精通linu_系统、shell/python编程语言、网络tcp/ip协议、数据库等,动手能力强

3、对大规模分布式系统的设计,分析,故障排查有强烈兴趣

4、较强的分析和解决问题的能力,强烈责任感、 缜密的逻辑思维能力,并有很强的沟通以及主动推进问题直至解决的能力

5、有大型云计算公司从业经验,对于阿里云、aws系统开发、测试、运维、应用工作经验者优先

第9篇 推荐架构sre工程师-抖音/火山职位描述与岗位职责任职要求

职位描述:

工作职责:

1、负责抖音、火山等海内外亿级产品的大规模集群的sre和运维优化工作

2、负责核心服务的持续集成和交付,高效和自动化的运维优化,提升服务的稳定性和研发效率

3、负责大规模集群的云平台化、资源优化、sla保障。

任职要求:

1、大规模系统的sre或运维经验,熟悉linu_、网络等系统运维的技能;

2、对大规模分布式系统的设计,分析,故障排查有强烈兴趣

3、开发语言python/shell;

4、有以下经验者优先:云平台相关经验(阿里云、aws等)。

第10篇 hadoop sre工程师职位描述与岗位职责任职要求

职位描述:

工作职责:

1、参与打造业界领先的存储、计算、消息队列等分布式系统

2、为海量数据及其上的大规模数据挖掘、数据分析、机器学习业务系统提供可靠、高效的支持

3、深入了解业务需求,利用存储技术支持关键业务场景

任职要求:

1、掌握分布式系统原理,对存储、计算、消息队列的一项或多项有深入的理解和认识

2、乐于挑战没有明显答案的问题,能快速理解业务场景,从具体问题中抽象出通用的解决方案

3、有较好的沟通能力;有良好的团队合作精神

第11篇 直播cdn/实时通信sre工程师职位描述与岗位职责任职要求

职位描述:

工作职责:

1、负责直播cdn/实时通信的系统高可用架构和规划,包括但不限于全链路压测、故障诊断、故障容灾、智能调度、弹性扩容与防攻击

2、设计并实现能够保障线上大规模集群的迭代、自动化运维平台

3、全球化流媒体传输网络建设与调优

4、设计优化的qos数据上报机制,大数据pipeline,监控,分析和报表系统,不间断监测用户体验

任职要求:

1、有大型系统的运维管理经验,对立体监控、自动部署、容量管理、自动容灾有较深入的理解和实践经验

2、熟悉linu_操作系统、tcp/ip等常用协议,熟悉cdn & dns 基本原理,了解ngin_/lvs/puppet/ansible/zabbi_/falcon等开源软件(至少2种)

3、熟悉全链路压测、降级、流控、熔断等稳定性保障手段

4、有日志处理及分析相关经验,熟悉相关的组件者优先,如:kafka,elk,flink,storm,flume等

5、有监控系统构建研发经验优先

第12篇 高级sre工程师岗位职责

高级网络sre工程师 7.职位描述:

1、建设网络评估体系;

2、全球化产品的网络调优、故障排除等; 职位要求:

1、有海量用户的产品开发运维经验,对网络劫持、故障有能力迅速定位并解决;

2、熟悉 tcp/ip、http、https 协议,了解 http2、quic 等协议;

3、熟悉 linu_ 环境,熟悉 socket 编程,熟悉 c++/python/go 之一;

4、熟悉网络交换/路由原理;

5、对用户体验有的追求,有用户至上的强烈热情;

6、有过海外 2c 产品运维和开发经验者优先;

7、可以接受偶尔短期国外出差。 7.职位描述:

1、建设网络评估体系;

2、全球化产品的网络调优、故障排除等; 职位要求:

1、有海量用户的产品开发运维经验,对网络劫持、故障有能力迅速定位并解决;

2、熟悉 tcp/ip、http、https 协议,了解 http2、quic 等协议;

3、熟悉 linu_ 环境,熟悉 socket 编程,熟悉 c++/python/go 之一;

4、熟悉网络交换/路由原理;

5、对用户体验有的追求,有用户至上的强烈热情;

6、有过海外 2c 产品运维和开发经验者优先;

7、可以接受偶尔短期国外出差。

第13篇 sre高级工程师职位描述与岗位职责任职要求

职位描述:

工作职责:

1、推进优化基础服务的响应延迟、性能问题,提升服务稳定性;

2、负责各种基础系统搭建和维护(dns、ldap等);

3、开发自动化运维平台,提高运维、开发协作效率,规范操作流程;

4、优化各种系统,减少重复性工作;

5、负责公司基础监控、报警系统开发与维护。

任职要求:

1 、大学本科(统招)及以上学历,计算机相关专业;

2 、三年以上运维开发项目经验;

3 、掌握常用开发语言 shell/python/golang,熟悉业界主流技术,如open-falcon、grafana等;

4、 熟悉 linu_ 操作系统,熟悉各种网络协议;

5 、有开源项目贡献者或开源项目领导者优先;

6 、有较强的学习能力,能够熟练阅读涉及产品和技术的英文文档;

7 、能够承受较高的工作压力;有强烈的工作责任心;有较好的沟通能力;有良好的团队合作精神;

8 、能够独立完成工作,具有较强的综合分析问题及解决问题的能力;

9 、有良好的工作文档习惯,及时按要求撰写更新工作流程及技术文档。

第14篇 sre 运维工程师职位描述与岗位职责任职要求

职位描述:

工作职责:

1、负责企业套件生产系统的监控,审查,故障响应、排查、解决与后续优化推进工作;

2、持续监控和审查系统架构合理性、流程逻辑合理性,系统性能、稳定性等技术领域和指标,并有责任和权利驱动业务团队解决问题;

3、负责第一时间响应生产故障,作为总体调度角色,组织相关研发、运维、产品等各方联合排查和解决问题,对故障响应时间、故障解决时间负责;

4、组织case study,跟进后续优化。

任职要求:

1、计算机相关专业,本科学历,3年以上互联网研发,或系统运维,或sre相关经验;

2、熟悉互联网技术架构,对网络通讯协议、应用服务器、负载均衡、微服务架构有较深入的理解;

3、熟悉互联网通用的组件,对消息中间件、分布式缓存、数据库有较深入的理解;

4、有较好的业务架构能力,能很好的理解高可用、高并发架构搭建方法;

5、有丰富的系统运维经验,对常见的系统隐患、系统故障有系统性总结和实际处理经验;

6、性格开朗外向,有很好的沟通技巧,有很强的责任心,具备优秀的推动力,做事追求极致。

sre工程师岗位职责14篇

职位描述:工作职责:1、aml:aliedmachinelearning2、设计和搭建高可靠的机器学习系统3、负责机器学习服务各环节(样本生成,样本管理,模型训练,模型服务,实时更新)的稳定运转4、硬件资源的管理与规划任职要求:1、扎实的编程基础,熟练掌握c…
推荐度:
点击下载文档文档为doc格式

相关sre信息

  • sre工程师岗位职责14篇
  • sre工程师岗位职责14篇55人关注

    职位描述:工作职责:1、aml:aliedmachinelearning2、设计和搭建高可靠的机器学习系统3、负责机器学习服务各环节(样本生成,样本管理,模型训练,模型服务,实时更新)的稳定运 ...[更多]

sre岗位职责专题

工程岗位职责热门信息