달 표면 하드웨어를 멀티에이전트 설계 루프로 만든 Blue Origin BlueGPT

Blue Origin은 달의 14일 밤을 견딜 수 있는 하드웨어를 더 빠르게 설계하기 위해 BlueGPT라는 사내 AI 생태계를 구축했다. BlueGPT는 단순한 챗봇이 아니라, 보안 LLM 게이트웨이, 에이전트 마켓플레이스, 멀티에이전트 오케스트레이션 플랫폼을 묶은 운영 레이어다. 이 플랫폼 위에서 Blue Origin의 In-Space Systems 팀은 Thermal Energy Advanced Regolith Exchanger(TEAREx)를 설계했다. TEAREx는 달 토양(regolith)을 열 저장 매체로 활용해 혹독한 lunar night 동안 시스템이 생존하도록 돕는 열 배터리 개념의 하드웨어다.

핵심은 AI가 엔지니어를 대체한 것이 아니라 요구사항 해석, 내부 지식 검색, 설계안 생성, 물리 시뮬레이션, 결과 평가, 반복 설계를 에이전트 팀이 병렬로 수행하게 만든 점이다. 공개 사례에 따르면 Blue Origin은 TEAREx 개발에서 하드웨어 개발 기간을 수년에서 수일로 줄여 90% 단축했고, 분석 워크플로는 4일에서 4시간으로 줄여 6배 가속했다. 2~3명의 인간 엔지니어가 supervisor, librarian, requirements, design, analysis agent로 구성된 에이전트 팀과 함께 일한 구조다.

1. 사용된 AI 기술

보안 LLM 게이트웨이와 에이전트 마켓플레이스: 전 직원이 사내 지식과 도구에 연결된 전문 에이전트를 만들고 재사용할 수 있게 한다. 공개 사례 기준 BlueGPT에는 2,700개 이상의 에이전트가 배포됐고, 한 달 350만 건의 상호작용과 70% 전사 도입률을 기록했다.
Amazon Bedrock 기반 모델 접근: 여러 foundation model을 보안·거버넌스가 있는 방식으로 호출하고, agentic application을 배포하는 기반으로 사용한다.
Amazon Bedrock Knowledge Bases + OpenSearch RAG: 항공우주·제조·열 설계 같은 공개 모델이 알기 어려운 사내 전문 지식을 검색해 에이전트 컨텍스트로 넣는다.
Amazon Bedrock AgentCore 메모리: session memory와 persistent memory를 분리해 단기 작업 맥락과 장기 설계 지식을 유지한다. AWS 사례는 hierarchical memory, insight extraction, namespace 기반 보안·접근 제어를 언급한다.
Strands Agents SDK: 고정 워크플로보다 모델 추론 중심의 agent orchestration을 구성한다. supervisor agent가 작업을 나누고, domain agent가 요구사항·설계·해석 작업을 수행하는 계층형 조정 모델이다.
Amazon EKS 기반 에이전트 런타임: 컨테이너화된 agent runtime, MCP server, 제조 실행 시스템 연동, 데이터 추출·리스크 관리 microservice를 운영한다.
AWS Lambda 기반 워크플로 자동화: 에이전트가 호출하는 서버리스 자동화와 서비스 간 glue logic을 확장한다.
Amazon EC2 P5/G5 GPU 시뮬레이션: agent가 생성한 설계안을 복잡한 물리 시뮬레이션과 topology optimization 루프로 검증한다. 요구사항을 만족할 때까지 설계·분석·수정 루프를 반복한다.

2. 구현 가능한 시스템 아키텍처

아래 구조는 AWS가 공개한 Blue Origin 사례와 일반적인 엔터프라이즈 제조·항공우주 AI 환경을 바탕으로 정리한 구현안이다. 원문이 직접 명시한 핵심 구성은 Amazon Bedrock, Bedrock Knowledge Bases, Bedrock AgentCore, Strands Agents SDK, Amazon EKS, OpenSearch RAG, Amazon RDS, AWS Lambda, Amazon EC2 P5/G5다. 포털 전달, 설계 산출물 저장, 검증 큐 같은 세부 구성은 실제 운영 시 필요한 예시 구현으로 봐야 한다.

요구사항과 사내 지식 연결

열 설계 요구사항, 제조 제약, 소재·시험 데이터, 과거 설계 지식을 BlueGPT가 검색 가능한 컨텍스트로 연결한다.

전문 에이전트 팀 구성

supervisor, librarian, requirements, design, analysis agent가 역할별로 작업을 나누고, Strands Agents SDK 기반으로 조정된다.

설계안 생성과 근거 검색

에이전트는 Bedrock 모델과 OpenSearch RAG를 사용해 요구사항에 맞는 설계 후보와 근거를 만든다.

GPU 시뮬레이션과 평가

EC2 P5/G5에서 물리 시뮬레이션과 topology optimization을 실행하고 결과를 요구사항과 비교한다.

반복 설계와 인간 승인

요구사항을 만족할 때까지 agentic loop를 반복한 뒤, 인간 엔지니어가 설계 근거와 분석 결과를 검토한다.

실제 서비스로 구축한다면 — AWS 레퍼런스 아키텍처

위 논리 흐름을 실제 AWS 위에 올리면 아래처럼 구성할 수 있다. 에이전트 런타임은 EKS에 두고, 지식 검색·메모리·모델 호출·시뮬레이션을 느슨하게 결합해 설계 루프를 반복한다.

Blue Origin BlueGPT AWS 레퍼런스 아키텍처 — 사내 요구사항과 지식 검색 → 멀티에이전트 오케스트레이션 → Bedrock/AgentCore 추론과 메모리 → EC2 P5/G5 시뮬레이션 → 설계 검토·제조 산출물 생성으로 이어지는 AWS 구성도. bronze 경로는 비용·지연·정확도가 집중되는 설계-시뮬레이션 반복 루프.

BlueGPT portal / gateway — CloudFront + S3 · ALB · Amazon EKS: 임직원이 에이전트 마켓플레이스와 설계 워크플로에 접근하는 내부 포털과 gateway를 제공한다.
Agent runtime — Amazon EKS: Strands Agents SDK 기반 supervisor/domain agents, MCP server, 제조·해석 도구 connector를 실행한다.
Foundation models & memory — Amazon Bedrock · Amazon Bedrock AgentCore: foundation model 호출, agent deployment, session/persistent memory, 계층형 컨텍스트 관리를 담당한다.
Knowledge retrieval — Amazon Bedrock Knowledge Bases · Amazon OpenSearch Service: 사내 기술 문서, 요구사항, 시험 데이터, 과거 설계 근거를 RAG로 검색한다.
Operational data — Amazon RDS: 요구사항, agent metadata, 작업 상태, 설계 리뷰 기록 같은 관계형 데이터를 저장한다.
Design artifacts — Amazon S3: CAD export, simulation input/output, 보고서, 제조용 산출물을 보관한다.
Workflow automation — AWS Lambda: agent tool call, 데이터 추출, 시뮬레이션 제출, 결과 수집 같은 자동화 단계를 실행한다.
Simulation compute — Amazon EC2 P5/G5: GPU 가속 물리 시뮬레이션과 topology optimization을 수행한다.
Review & manufacturing handoff — 내부 review UI/API · 제조 실행 시스템 연동: 인간 엔지니어가 근거와 분석 결과를 승인한 뒤 3D print, manufacturing execution, supplier communication으로 넘긴다.
Security & Audit — IAM · KMS · CloudTrail · CloudWatch: 수출통제·기밀 설계 데이터를 다루므로 권한, 암호화, 감사 로그, 모니터링은 전 구간에 횡단 적용한다.

bronze로 강조한 경로는 비용·지연·정확도가 집중되는 핵심 경로(Bedrock/AgentCore 추론, RAG 검색, EC2 P5/G5 시뮬레이션, 결과 평가)다. IAM·KMS·CloudTrail·CloudWatch 같은 보안·감사 요소는 전 구간에 횡단 적용되므로 그림에서는 생략하고 위 목록으로 정리했다. AWS는 예시 구현이며, 같은 패턴을 보안 요건을 만족하는 다른 클라우드·온프레미스 환경으로 옮길 수도 있다.

3. 업무 흐름

설계 목표 입력

엔지니어가 TEAREx 같은 하드웨어의 성능 요구사항, 제약 조건, 제조 가능성 기준을 입력한다.

지식 검색과 요구사항 분해

librarian agent가 사내 지식을 검색하고, requirements agent가 검증 가능한 설계 조건으로 분해한다.

설계 후보 생성

design agent가 열·구조·질량 제약을 반영한 후보안을 만들고, supervisor agent가 다음 작업을 배정한다.

시뮬레이션 실행

analysis agent가 EC2 P5/G5 기반 해석 도구를 호출해 물리 시뮬레이션과 topology optimization을 실행한다.

평가와 반복

결과가 요구사항을 만족하지 못하면 agent team이 설계안을 수정하고 다시 시뮬레이션한다.

엔지니어 승인과 제조 이관

인간 엔지니어가 최종 설계, 근거, 시뮬레이션 결과를 검토한 뒤 제조·테스트 단계로 넘긴다.

이 흐름에서 AI는 최종 설계 책임자가 아니라 전문 지식 검색과 반복 해석을 자동화하는 엔지니어링 운영 레이어로 작동한다. 중요한 판단은 여전히 인간 엔지니어가 담당하지만, AI가 요구사항-설계-해석-수정 루프의 대기 시간과 반복 비용을 크게 줄인다.

4. 구축 및 운영 비용

Blue Origin 내부 운영비는 공개되지 않았다. 다만 비용 구조는 다음처럼 나눌 수 있다.

모델·에이전트 비용: Bedrock 모델 호출, AgentCore 메모리, Knowledge Bases/RAG 동기화 비용이 발생한다. agentic loop가 길어질수록 토큰, 메모리, 검색 호출이 함께 늘어난다.
GPU 시뮬레이션 비용: EC2 P5/G5 기반 물리 시뮬레이션과 topology optimization이 가장 큰 변동비가 될 가능성이 높다. job queue, spot capacity, checkpointing, early-stop 기준이 비용 통제의 핵심이다.
런타임·검색 인프라 비용: EKS cluster, OpenSearch index, RDS, S3 artifact store, Lambda 자동화 비용이 기본 운영비로 붙는다.
보안·거버넌스 비용: 항공우주 설계 데이터는 수출통제, 영업비밀, 공급망 보안 요구가 강하다. 접근 권한, 감사 로그, 데이터 분리, model/tool 호출 기록 보존이 필수다.
전문가 검토 비용: 사람의 검토는 사라지지 않는다. 다만 엔지니어가 반복 자료 수집·해석 실행보다 요구사항 판단, 설계 trade-off, 승인에 집중하게 되는 것이 핵심 이익이다.

5. 비즈니스 이익

하드웨어 개발 기간 단축

공개 사례 기준으로 TEAREx 개발은 concept-to-printed-part 기준 수년에서 수일로 줄어 90% 단축됐다. 이는 문서 생성 자동화가 아니라 실제 하드웨어 설계·시뮬레이션 반복 시간을 줄인 결과다.

분석 워크플로 6배 가속

기존에 4일 걸리던 분석 작업이 4시간으로 줄었다. 요구사항을 해석하고, 해석 도구를 실행하고, 결과를 평가하는 반복 루프를 에이전트가 자동화했기 때문이다.

소수 정예 엔지니어링 확장

2~3명의 인간 엔지니어가 supervisor, librarian, requirements, design, analysis agent와 함께 일하면서 수십 명 규모의 작업을 수행하는 구조를 만들었다. Blue Origin은 이를 작은 팀이 큰 mission을 수행하는 방식으로 설명한다.

에이전트 재사용성 확보

TEAREx에 쓰인 agent는 일회성 스크립트가 아니라 BlueGPT marketplace에 남아 튜브, 배럴, harness, assembly, 장기적으로는 vehicle 수준 설계에도 재조합될 수 있다. 이 점이 단발성 자동화와 플랫폼형 AI 도입의 차이다.

제조·운영 업무로 확장

BlueGPT는 엔지니어링 외에도 제조 work order 개선, non-conformance resolution, supplier communication에 사용된다. 공개 사례는 제조팀이 non-conformance를 70% 더 빠르게 해결하고 있다고 설명한다.

6. 제조·B2B 기업에 주는 시사점

이 사례는 항공우주처럼 규제가 강하고 물리 제약이 많은 산업에서도 AI가 의미 있는 역할을 할 수 있음을 보여준다. 단, 성공 요건은 "범용 챗봇을 도입한다"가 아니다. 실제 효과는 내부 지식, 요구사항, 해석 도구, 제조 데이터, 승인 절차를 agentic loop 안에 연결할 때 나온다.

제조·B2B 기업에서는 다음 영역에 먼저 적용할 수 있다.

설비·부품 설계안의 요구사항 분해와 해석 자동화
품질 이슈(non-conformance) 원인 후보 검색과 조치안 작성
공급업체 변경사항 설명과 영향도 분석
장비 매뉴얼·시험 데이터·과거 장애 기록 기반 troubleshooting agent
소재·공정 조건별 simulation run orchestration
설계 변경 승인 문서와 audit trail 자동 생성

공통점은 업무가 길고, 내부 지식이 흩어져 있고, 반복 해석과 승인 절차가 많다는 점이다. 따라서 AI를 자유형 대화 도구로만 두면 효과가 제한된다. 요구사항을 기계가 평가 가능한 기준으로 분해하고, agent가 호출할 수 있는 도구를 API화하며, 결과를 사람이 승인하는 운영 경계를 먼저 설계해야 한다.

7. 도입 체크리스트

AI가 처리할 설계·품질·해석 업무의 요구사항이 측정 가능한 기준으로 정의돼 있는가?
사내 문서, 시험 데이터, 설계 이력, 제조 지식이 권한 기반 RAG로 검색 가능한가?
에이전트가 호출할 CAD, CAE, simulation, MES, PLM 도구가 API나 job queue로 연결돼 있는가?
각 agent의 역할(supervisor, librarian, requirements, design, analysis)이 명확히 분리돼 있는가?
설계 결과마다 사용한 요구사항, 근거 문서, tool call, model version, simulation result가 audit trail로 남는가?
인간 엔지니어 승인 전에는 제조·납품·공급망 시스템에 자동 반영되지 않는가?
EC2 GPU 비용을 통제하기 위한 queue, spot policy, checkpoint, 실패 재시도, early-stop 기준이 있는가?
수출통제·기밀 설계 데이터 접근 권한과 외부 모델 호출 정책이 명확한가?
성공한 agent pattern을 marketplace에 재사용 가능한 형태로 등록하고 관리하는가?