Senior Site Reliability Champion

Vanguard Group, Inc.

• $120K — $150K *

Information Technology

Less than 5 years of experience

Today

Be an Early Applicant

By clicking Apply, I agree with Ladders' Terms of Use and Privacy Policy

Qualifications

Experience with observability and monitoring tools (e.g., Splunk, Honeycomb, CloudWatch).
Strong understanding of SLIs, SLOs, and SLAs with dashboarding capabilities.
Proficient in alert design and predictive alerting methodologies.
Familiarity with Python automation and resilience engineering practices.
Knowledge of RPA platforms like Blue Prism or UiPath, and chaos engineering techniques.

Responsibilities

Benefits

Core Responsibilities:

Evaluate applications, platforms, and vendors to assess resiliency, reliability, and operational risk.
Design and implement processes that enforce enterprise resiliency and reliability standards.
Lead blameless post-incident reviews for high-severity incidents or incidents spanning multiple complex product families.
Partner with product and platform teams to proactively identify and remediate reliability risks before they impact clients.
Develop, communicate, and evangelize new standards, tools, and frameworks across subdivisions, ensuring consistent adoption.
Troubleshoot complex production issues and implement durable solutions that prevent recurrence.
Participate in a periodic on-call rotation to support production stability.
Evaluate and onboard resiliency and reliability tooling.
Actively participate in reliability engineering and resilience communities of practice, contributing to shared learning and enterprise consistency.
Contribute to strategic initiatives that advance Vanguard's operational maturity and resiliency posture.

Qualifications | Technical Skills:

Observability Platforms: Experience with modern observability and monitoring tools, such as Splunk, Honeycomb, CloudWatch, Dynatrace, or AppDynamics.
Reliability Metrics: Strong understanding of SLIs, SLOs, and SLAs, including dashboarding and reporting practices.
Monitoring & Alerting: Experience with alert design, anomaly detection, predictive alerting, and synthetic monitoring using structured methodologies.
Automation & Resilience Engineering: Experience with automation and resilience practices such as Python-based automation, RPA platforms (e.g., Blue Prism, UiPath), chaos engineering, and failure analysis techniques (e.g., FMEA).

Special Factors

Sponsorship
Vanguard is not offering visa sponsorship for this position.

Similar Jobs

Information Systems Security Engineer (ISSE)
$135K — $216K *
Peraton
Herndon, VA 20171 (Fairfax County)
Today
Security & Compliance Engineer
$100K — $160K *
Grant Street Group
Remote
Today
Insider Risk & Data Protection Engineer
$104K — $166K *
Peraton
Remote
Yesterday
Benchtop Support Engineer
$110K — $120K *
Tata Consultancy Services
Boston, MA 02115 (Suffolk County)
Yesterday
Networking & Security Engineer
$90K — $130K *
Capula
New York, NY 10025 (New York County)
Reposted 2 days ago
Virtualization Engineer
$100K — $130K *
SAIC
Springfield, VA 22153 (Fairfax County)
Reposted 2 days ago

More Jobs at Vanguard Group, Inc.

More Information Technology Jobs

SDET (Software Development Engineer In Test)
Confidential Company
Washington, DC 20001 (District Of Columbia County)
1 week ago
Salesforce Developer
$112K — $167K *
BigCommerce
Austin, TX 78745 (Travis County)
Today
PostgreSQL Database Analyst
$90K — $120K *
Bridge Core (BCore)
Springfield, VA 22153 (Fairfax County)
Today
Asst. Director, Architecture
$126K — $207K *
Sysmex
Lincolnshire, IL 60069 (Lake County)
Today
SharePoint Administrator
$90K — $105K *
Cherokee Nation Businesses
Remote
Today

Find similar Senior Site Reliability Champion jobs: