파네시아, AI 추론 병목 푸는 CXL 3.2 퓨전 스위치 첫 공개

파네시아 CXL 3.2 퓨전 스위치는 왜 'AI 인프라의 게임체인저'로 불릴까?

파네시아가 PCIe 6.4와 CXL 3.2를 단일 다이로 지원하는 퓨전 패브릭 스위치 실물을 ISPASS 2026에서 처음 공개했다. 에이전틱 AI 시대 폭증하는 KV 캐시 병목을 GPU 메모리 한계 너머로 풀어내는 차세대 인터커넥트다. 자체 설계 컨트롤러로 지연 시간을 수십 나노초까지 줄였고, 올해 말 SK텔레콤과 공동 구축한 AI 서버랙 실증 사례를 공개한다. 하반기 양산이 예정돼 있어 AI 데이터센터 토폴로지를 바꿀 변곡점으로 평가된다.

panmnesia-cxl-fusion-switch-ai-inference-infographic

왜 지금 CXL 패브릭 스위치가 주목받는가?

생성형 AI가 대화형에서 에이전틱 AI로 진화하면서 추론 단계에서 발생하는 KV(Key-Value) 캐시 데이터가 기하급수적으로 늘고 있다. KV 캐시는 모델이 이전 대화 맥락을 기억해 더 정확한 응답을 만들어내는 핵심 메모리이지만, 사용자와의 상호작용이 길어질수록 GPU에 탑재된 HBM 용량을 빠르게 잠식한다. 업계에서는 이를 "추론 시대의 새로운 병목"이라고 부른다.

기존 PCIe 기반 인터커넥트는 GPU와 메모리, 가속기를 정적으로 묶는 구조여서 워크로드별 자원 재배치가 어렵다. CXL(Compute Express Link)은 캐시 일관성을 유지하면서 CPU·GPU·메모리 풀을 하나의 자원처럼 묶는 표준으로 떠올랐고, 3.x 세대부터는 포트 기반 라우팅(PBR)을 통해 랙 단위 패브릭 구성이 가능해졌다.

Agentic AI workloads are stretching GPU HBM far beyond its limits, turning KV cache offload into the defining bottleneck of inference infrastructure in 2026.

파네시아 퓨전 스위치는 어떻게 추론 병목을 푸는가?

정명수 대표가 지난 28일 서울 JW메리어트호텔에서 열린 ISPASS 2026에서 공개한 'PCIe 6.4-CXL 3.2 퓨전 스위치'는 단일 칩에서 PCIe 6.4 물리계층과 CXL 3.2 프로토콜을 동시에 지원한다. CXL 3.2의 핵심 기능인 PBR을 완전 구현해 GPU·CPU·메모리 익스팬더·AI 가속기를 사실상 자유롭게 조합할 수 있다. 즉 워크로드가 요구하는 만큼만 자원을 가져다 쓰는 디스어그리게이티드(disaggregated) 아키텍처가 가능해진다.

핵심은 자체 설계 스위치 컨트롤러다. 파네시아는 버퍼 크기와 신호 처리 방식을 CXL 프로토콜에 맞춰 최적화해 지연 시간을 두 자릿수 나노초로 끌어내렸다고 밝혔다. 모든 IP를 직접 개발해 외부 라이선스 의존성을 없앴고 보안 측면 우려도 줄였다. 캐시 일관성(CXL.cache·CXL.mem·CXL.io 전 서브프로토콜 지원) 덕분에 KV 캐시 같은 메모리 자원을 여러 가속기가 동시 참조해도 데이터 정합성이 유지된다.

Panmnesia's fusion switch unifies PCIe 6.4 and CXL 3.2 on a single die, enabling rack-scale composability with double-digit nanosecond latency and full cache coherence.

어떤 수치와 협력 구조가 뒷받침하는가?

PCIe 6.4 채택으로 데이터 전송 속도는 초당 64GT 수준에 도달했다. 이전 세대 대비 두 배 빠른 속도로, PAM4 신호 방식과 강화된 오류 정정 기술이 결합돼 대규모 AI 클러스터에서 신호 무결성을 확보한다. 파네시아는 2025년 11월 PCIe 6.0/CXL 3.2 패브릭 스위치 샘플 공급을 시작했고, 2026년 하반기 양산을 공식화했다.

협력 구조도 빠르게 다각화되고 있다. 파네시아는 올해 3월 MWC26에서 SK텔레콤과 CXL 기반 차세대 AI 데이터센터 아키텍처 공동 개발 파트너십을 체결했다. 두 회사는 연말까지 실제 AI 모델로 GPU·메모리 활용률, 지연 시간, 처리량을 종합 검증한 뒤 대규모 PoC와 상용화로 확장한다는 로드맵을 제시했다. 같은 기간 오픈칩과는 차세대 AI 가속기 분야 전략적 제휴도 발표했다. 글로벌 시장에서는 구글 TurboQuant가 KV 캐시 메모리 사용량을 약 6배 압축하고, 엔비디아가 NVMe 기반 KV 캐시 오프로드 표준화를 추진하는 등 KV 캐시 처리 효율화가 산업 공통 과제로 떠올랐다.

PCIe 6.4 doubles bandwidth to 64 GT/s, while Panmnesia secures volume production in H2 2026 alongside marquee partners SK Telecom and Openchip.

하반기 양산 이후 무엇이 달라지는가?

올해 말 공개되는 SK텔레콤과의 AI 서버랙 실증 사례는 CXL 패브릭 기반 데이터센터의 첫 한국형 레퍼런스가 될 가능성이 크다. 자원을 워크로드별로 동적 할당해 GPU 가동률을 끌어올리면 동일 인프라에서 더 많은 추론 요청을 처리할 수 있어, 하이퍼스케일러와 통신사 모두 자본 지출(CapEx) 부담을 낮출 수 있다.

전망은 두 갈래로 갈린다. 한쪽은 CXL 4.0 사양과 PCIe 7.0 로드맵이 빠르게 따라오면서 패브릭 표준 경쟁이 격화될 것으로 본다. 다른 한쪽은 패브릭 스위치 칩이 엔비디아 NVLink 생태계와 직접 경쟁해야 하는 만큼 호환성·소프트웨어 스택 확보가 관건이라고 지적한다. 파네시아가 자체 IP와 PBR 풀 구현으로 차별화에 성공한다면, KV 캐시 폭증 시대를 이겨내는 한국발 인터커넥트 표준 후보로 자리매김할 가능성이 있다.

Volume production in late 2026 plus the SKT proof-of-concept could position Panmnesia as Korea's flagship CXL fabric vendor in an NVLink-dominated market.

파네시아 등장은 한국 시스템반도체 생태계에 어떤 의미인가?

파네시아의 PCIe 6.4-CXL 3.2 퓨전 스위치 공개를 단순히 '국산 칩 하나가 더 나왔다'로 읽으면 본질을 놓친다. 이 칩이 겨냥하는 시장은 GPU 자체가 아니라 GPU와 GPU, GPU와 메모리, GPU와 CPU를 잇는 패브릭 레이어다. 그동안 이 영역은 엔비디아 NVLink와 일부 글로벌 칩 벤더가 사실상 독점해 왔고, 한국 시스템반도체 업계에서는 진입 자체가 불가능한 영역으로 여겨졌다. 카이스트 출신 정명수 대표가 이끄는 스타트업이 PCIe·CXL을 단일 다이로 통합한 퓨전 스위치를 자체 IP로 들고 나왔다는 사실 자체가, 한국이 메모리 반도체에 이어 인터커넥트 영역에서도 발언권을 확보할 수 있다는 신호로 읽힌다.

특히 주목할 대목은 SK텔레콤이라는 통신사 고객이 가장 먼저 이름을 올렸다는 점이다. 통신사가 AI 데이터센터 사업으로 무게중심을 옮기는 흐름은 글로벌 트렌드지만, GPU 가동률·KV 캐시 처리 효율이 비용 구조의 핵심으로 떠오른 지금 패브릭 레이어 협력은 단순 도입이 아니라 전략적 선택에 가깝다. 파네시아 입장에서는 통신사 레퍼런스를 통해 안정적 검증 트랙을 확보하고, SK텔레콤은 NVLink 의존도를 줄이며 자원 풀링 기반 인프라를 시도해볼 수 있다. 이 조합이 연말 실증으로 가시화되면 국내 AI 데이터센터 설계 표준 자체가 흔들릴 가능성이 있다.

물론 갈 길은 멀다. NVLink 생태계가 가진 소프트웨어 스택과 라이브러리 풀, 그리고 하이퍼스케일러의 보수적 도입 속도를 감안하면 파네시아의 도약은 칩 자체가 아니라 검증된 PoC와 대량 양산 안정성으로 판가름 날 것이다. 다만 한국 시스템반도체가 메모리·파운드리에 이어 패브릭 영역에서도 글로벌 표준 후보를 만들어가고 있다는 점만으로도, 이번 ISPASS 2026 공개는 충분히 묵직한 신호다.

Panmnesia's fabric switch is less about a single chip and more about Korea earning a seat at the AI interconnect table once dominated by NVLink and global silicon vendors.

자주 묻는 질문

Q. CXL 3.2가 기존 CXL 2.0과 가장 다른 점은 무엇인가?

포트 기반 라우팅(PBR)을 통해 다수의 가속기·메모리 노드를 패브릭 단위로 자유롭게 묶을 수 있고, 캐시 일관성이 랙 스케일에서 유지된다는 점이다. 단일 호스트 중심 구조였던 CXL 2.0과 달리 디스어그리게이티드 데이터센터를 구현할 수 있다.

Q. KV 캐시 병목은 왜 그렇게 중요한가?

에이전틱 AI는 대화 맥락과 작업 이력을 길게 유지해야 하기 때문에 KV 캐시가 폭증한다. GPU HBM에만 의존하면 비용·전력이 급격히 늘기 때문에, CXL 메모리 풀이나 NVMe 오프로드로 캐시를 외부에 분산하는 것이 추론 비용 구조의 핵심 변수가 됐다.

Q. 파네시아 스위치는 엔비디아 NVLink와 경쟁 관계인가?

NVLink는 엔비디아 GPU 간 폐쇄형 인터커넥트인 반면, 파네시아 스위치는 PCIe·CXL 표준 기반의 개방형 패브릭이다. 이종 가속기와 메모리 풀을 묶는 데 강점이 있어 NVLink 도메인 외부의 자원 풀링·메모리 확장 영역에서 경쟁한다.

Q. SK텔레콤은 왜 통신사임에도 AI 인프라 칩 협력을 강화하나?

SK텔레콤은 자체 AI 데이터센터 사업과 글로벌 AI 동맹 'AI 컨퍼넌스'를 추진 중이며, GPU 자원 효율화는 비용 구조의 핵심이다. 파네시아 CXL 패브릭은 GPU·메모리 활용률을 끌어올리는 직접 수단이라 통신·AI 인프라 모두에 활용 가능성이 높다.