[인더AI] 루멕스 CSS 앞세워 AI 표준 주도 가속화
제임스 맥니븐 Arm 클라이언트 사업부 부사장은 21일 서울 삼성동 그랜드 인터컨티넨탈 파르나스호텔에서 열린 Arm 언락드 서울 2025에서 <디지털데일리>와 플래그십 모바일 플랫폼으로 루멕스CSS에 대해 설명했다.
[디지털데일리 김문기 기자] “AI는 지금 모바일 컴퓨팅의 근본 구조를 바꾸고 있다. 루멕스(Lumex)는 그 전환의 중심에 있는 플랫폼이다.”
제임스 맥니븐 Arm 클라이언트 사업부 부사장은 21일 서울 삼성동 그랜드 인터컨티넨탈 파르나스호텔에서 열린 Arm 언락드 서울 2025에서 <디지털데일리>와 플래그십 모바일 플랫폼으로 루멕스CSS에 대해 이같이 말했다.
맥니븐 부사장은 “우리는 이제 단일 칩 성능만 얘기하지 않는다. AI를 효율적으로 실행하기 위한 아키텍처 전체를 설계하는 시대다. 루멕스는 CPU, GPU, 시스템 IP를 하나의 통합 서브시스템으로 묶어 프리미엄 디바이스 전반에서 AI를 스케일링할 수 있게 했다”고 강조했다.
루멕스(Lumex) CSS 플랫폼은 Arm의 최고 성능 CPU, 스캐러블 매트릭스 확장 버전2(Scalable Matrix Extension version 2, SME2), GPU 및 시스템 IP를 결합해 에코시스템이 AI 디바이스를 더 빠르게 시장에 출시할 수 있도록 지원해준다. 이를 통해 데스크톱 수준의 모바일 게이밍, 실시간 번역, 더욱 스마트한 어시스턴트, 개인화된 애플리케이션 등 폭넓은 경험을 제공한다는 게 Arm의 설명이다.
◆ “C1 CPU, SME2 통합으로 AI 연산 5배 향상”
루멕스의 핵심은 새로 등장한 C1 CPU 클러스터다. 그는 “이번 세대에서 단일 스레드 성능이 25% 올랐고, 6년 연속 두 자릿수 IPC 개선을 이어가고 있다”며 “가장 큰 변화는 SME2(Scalable Matrix Extension 2)의 도입”이라고 강조했다.
이어, “SME2는 CPU 안에 들어간 행렬 연산 엔진이다. AI 추론이나 LLM 같은 대규모 연산을 GPU 없이 CPU에서 바로 처리한다. 덕분에 음성 인식, 번역, 오디오 생성 같은 작업에서 최대 5배 성능, 최대 3배 효율을 낸다. 레이턴시(지연 시간)도 극적으로 줄었다”고 설명했다.
또한 맥니븐은 단순한 벤치마크보다 실제 사용 사례를 강조했다. 그는 “인스타그램 피드 스크롤, 유튜브 스트리밍, 게임 스레드까지 실사용 워크로드에서 전력 소모를 낮추면서 처리 속도를 높였다. 작은 네트워크의 경우 GPU보다 CPU의 낮은 지연이 더 유리하다"라며, “울트라(Ultra)는 최고 성능, 프리미엄(Premium)은 거의 동일한 성능을 더 작은 면적으로 구현했다. 프로(Pro)는 지속 성능, 나노(Nano)는 초저전력 효율을 담당한다. 시장 세그먼트마다 유연하게 대응할 수 있다.”
그 중에서도 SME2에 대해 많은 시간을 할애했다. 그는 "SME2(Scalable Matrix Extension v2)는 CPU 안에서 행렬 연산을 직접 처리하는 엔진이다. 저지연, 고효율, 그리고 보안이 핵심이다”라고 강조했다. SME2는 GPU나 NPU로 데이터를 넘기지 않고 CPU 내부에서 직접 AI 연산을 처리한다. 맥니븐은 “이건 단순한 최적화가 아니라 구조의 전환”이라고 했다. 또한 “CPU가 다시 주도권을 잡는 것이다. GPU의 높은 TOPS가 항상 정답은 아니다. SME2는 낮은 레이턴시로 더 작은 네트워크를 즉시 처리할 수 있다”고도 지목했다.
실제 데이터를 제시하기도 했다. 맥니븐 부사장은 “음성 인식 워크로드에서 5배 성능 향상, 오디오 생성은 3배 빠르고 지연은 4.7배 줄었다. AI 연산 효율이 CPU에서 이 정도로 나온 건 처음이다”라며, “스마트폰 카메라의 노이즈 제거, 실시간 번역, 개인 비서형 생성형 AI까지 SME2가 들어가면 다르게 작동한다. 폰이 말 그대로 스스로 생각하는 기기가 된다"고 발언했다.
루멕스의 또 다른 축은 GPU다. 맥니븐 부사장은 “GPU 라인업은 이제 단순하다. G1과 G1-울트라로 구분된다. 그래픽 성능과 AI 추론 속도가 최대 20%씩 올라갔고, 프레임당 에너지 소모는 9% 줄었다. 특히 RTU v2(레이 트레이싱 유닛) 완전히 새로 설계됐다. 전세대보다 두 배 빠르고, 독립 유닛이라 쓸 때만 작동한다. ‘유휴 상태 전력 누설 제로(0 leakage)’다”
다만 RTU v2의 경우 “레이 트레이싱은 오직 그래픽용이다. 음성 인식 같은 AI 워크로드는 GPU 대신 SME2를 쓰는 게 낫다. 다만 어느 엔진이 최적이냐는 모델 크기나 데이터 흐름에 따라 다르다. 정답은 없다. 개발자가 직접 실험해야 한다”고 말했다.
루멕스(Lumex) CSS 플랫폼
◆ “TOPS 숫자에 집착할 필요 없다…지연, 보안, 효율이 진짜 경쟁력”
AI 성능 지표인 TOPS(Tera Operations per Second)도 화두에 올랐다. 그는 “TOPS는 좋은 수치지만, 절대적인 기준은 아니다”라고 잘라 말했다. 이어,“낮은 지연이 더 중요한 경우가 많다. 예를 들어 SME2는 주파수와 유닛 수에 따라 다르지만 코어당 대략 2~4 TOPS, 설계에 따라 8 TOPS까지 가능하다. 하지만 단순한 숫자보다 중요한 건 얼마나 빠르게 응답하느냐, 얼마나 효율적으로 구동하느냐, 그리고 보안을 유지하느냐다"라고 갈음했다.
아울러 “AI는 NPU만의 영역이 아니다. CPU, GPU, NPU가 각각 장단점을 가진다. Arm은 개발자가 이 셋을 조합해 최적의 시나리오를 찾을 수 있게 돕는다”고 덧붙였다.
맥니븐은 부사장은 “루멕스는 하나의 칩이 아니라 설계 기반이다. CPU, GPU, 시스템 IP, 그리고 KleidiAI 같은 소프트웨어까지 하나로 통합해 파트너가 필요한 성능, 효율, 면적을 조율할 수 있게 했다. 그게 플랫폼 수준의 인텔리전스"라며, "“우리는 이제 모바일에서 AI가 어떻게 동작하는지 완전히 새로 쓰고 있다. SME2, G1 GPU, 그리고 클레이디(Kleidi)AI 통합으로 개발자는 복잡한 최적화 없이 성능을 그대로 끌어올릴 수 있다. 루멕스는 단순한 기술 진화가 아니라, 모바일 지능이 작동하는 방식을 바꾸는 플랫폼이다"라고 강조했다.
한편, 공정과 관련된 질문에 맥니븐 부사장은 공정 관련 “루멕스는 2나노와 3나노 물리 구현을 모두 지원하지만, 파운드리별 세부 차이를 공개하진 않는다. 중요한 건 파트너가 얼마나 빨리 시장에 제품을 내놓느냐다"라며, “Arm은 물리 구현(Physical Implementation)까지 제공해 설계 시간을 단축시킨다. 파트너가 RTL을 수정하지 않아도 되는 구조다. 출시 주기를 1년 이상 줄일 수 있다"고 말하기도 했다.
[디지털데일리 김문기 기자] “AI는 지금 모바일 컴퓨팅의 근본 구조를 바꾸고 있다. 루멕스(Lumex)는 그 전환의 중심에 있는 플랫폼이다.”
제임스 맥니븐 Arm 클라이언트 사업부 부사장은 21일 서울 삼성동 그랜드 인터컨티넨탈 파르나스호텔에서 열린 Arm 언락드 서울 2025에서 <디지털데일리>와 플래그십 모바일 플랫폼으로 루멕스CSS에 대해 이같이 말했다.
맥니븐 부사장은 “우리는 이제 단일 칩 성능만 얘기하지 않는다. AI를 효율적으로 실행하기 위한 아키텍처 전체를 설계하는 시대다. 루멕스는 CPU, GPU, 시스템 IP를 하나의 통합 서브시스템으로 묶어 프리미엄 디바이스 전반에서 AI를 스케일링할 수 있게 했다”고 강조했다.
루멕스(Lumex) CSS 플랫폼은 Arm의 최고 성능 CPU, 스캐러블 매트릭스 확장 버전2(Scalable Matrix Extension version 2, SME2), GPU 및 시스템 IP를 결합해 에코시스템이 AI 디바이스를 더 빠르게 시장에 출시할 수 있도록 지원해준다. 이를 통해 데스크톱 수준의 모바일 게이밍, 실시간 번역, 더욱 스마트한 어시스턴트, 개인화된 애플리케이션 등 폭넓은 경험을 제공한다는 게 Arm의 설명이다.
◆ “C1 CPU, SME2 통합으로 AI 연산 5배 향상”
루멕스의 핵심은 새로 등장한 C1 CPU 클러스터다. 그는 “이번 세대에서 단일 스레드 성능이 25% 올랐고, 6년 연속 두 자릿수 IPC 개선을 이어가고 있다”며 “가장 큰 변화는 SME2(Scalable Matrix Extension 2)의 도입”이라고 강조했다.
이어, “SME2는 CPU 안에 들어간 행렬 연산 엔진이다. AI 추론이나 LLM 같은 대규모 연산을 GPU 없이 CPU에서 바로 처리한다. 덕분에 음성 인식, 번역, 오디오 생성 같은 작업에서 최대 5배 성능, 최대 3배 효율을 낸다. 레이턴시(지연 시간)도 극적으로 줄었다”고 설명했다.
또한 맥니븐은 단순한 벤치마크보다 실제 사용 사례를 강조했다. 그는 “인스타그램 피드 스크롤, 유튜브 스트리밍, 게임 스레드까지 실사용 워크로드에서 전력 소모를 낮추면서 처리 속도를 높였다. 작은 네트워크의 경우 GPU보다 CPU의 낮은 지연이 더 유리하다"라며, “울트라(Ultra)는 최고 성능, 프리미엄(Premium)은 거의 동일한 성능을 더 작은 면적으로 구현했다. 프로(Pro)는 지속 성능, 나노(Nano)는 초저전력 효율을 담당한다. 시장 세그먼트마다 유연하게 대응할 수 있다.”
그 중에서도 SME2에 대해 많은 시간을 할애했다. 그는 "SME2(Scalable Matrix Extension v2)는 CPU 안에서 행렬 연산을 직접 처리하는 엔진이다. 저지연, 고효율, 그리고 보안이 핵심이다”라고 강조했다. SME2는 GPU나 NPU로 데이터를 넘기지 않고 CPU 내부에서 직접 AI 연산을 처리한다. 맥니븐은 “이건 단순한 최적화가 아니라 구조의 전환”이라고 했다. 또한 “CPU가 다시 주도권을 잡는 것이다. GPU의 높은 TOPS가 항상 정답은 아니다. SME2는 낮은 레이턴시로 더 작은 네트워크를 즉시 처리할 수 있다”고도 지목했다.
실제 데이터를 제시하기도 했다. 맥니븐 부사장은 “음성 인식 워크로드에서 5배 성능 향상, 오디오 생성은 3배 빠르고 지연은 4.7배 줄었다. AI 연산 효율이 CPU에서 이 정도로 나온 건 처음이다”라며, “스마트폰 카메라의 노이즈 제거, 실시간 번역, 개인 비서형 생성형 AI까지 SME2가 들어가면 다르게 작동한다. 폰이 말 그대로 스스로 생각하는 기기가 된다"고 발언했다.
루멕스의 또 다른 축은 GPU다. 맥니븐 부사장은 “GPU 라인업은 이제 단순하다. G1과 G1-울트라로 구분된다. 그래픽 성능과 AI 추론 속도가 최대 20%씩 올라갔고, 프레임당 에너지 소모는 9% 줄었다. 특히 RTU v2(레이 트레이싱 유닛) 완전히 새로 설계됐다. 전세대보다 두 배 빠르고, 독립 유닛이라 쓸 때만 작동한다. ‘유휴 상태 전력 누설 제로(0 leakage)’다”
다만 RTU v2의 경우 “레이 트레이싱은 오직 그래픽용이다. 음성 인식 같은 AI 워크로드는 GPU 대신 SME2를 쓰는 게 낫다. 다만 어느 엔진이 최적이냐는 모델 크기나 데이터 흐름에 따라 다르다. 정답은 없다. 개발자가 직접 실험해야 한다”고 말했다.
◆ “TOPS 숫자에 집착할 필요 없다…지연, 보안, 효율이 진짜 경쟁력”
AI 성능 지표인 TOPS(Tera Operations per Second)도 화두에 올랐다. 그는 “TOPS는 좋은 수치지만, 절대적인 기준은 아니다”라고 잘라 말했다. 이어,“낮은 지연이 더 중요한 경우가 많다. 예를 들어 SME2는 주파수와 유닛 수에 따라 다르지만 코어당 대략 2~4 TOPS, 설계에 따라 8 TOPS까지 가능하다. 하지만 단순한 숫자보다 중요한 건 얼마나 빠르게 응답하느냐, 얼마나 효율적으로 구동하느냐, 그리고 보안을 유지하느냐다"라고 갈음했다.
아울러 “AI는 NPU만의 영역이 아니다. CPU, GPU, NPU가 각각 장단점을 가진다. Arm은 개발자가 이 셋을 조합해 최적의 시나리오를 찾을 수 있게 돕는다”고 덧붙였다.
맥니븐은 부사장은 “루멕스는 하나의 칩이 아니라 설계 기반이다. CPU, GPU, 시스템 IP, 그리고 KleidiAI 같은 소프트웨어까지 하나로 통합해 파트너가 필요한 성능, 효율, 면적을 조율할 수 있게 했다. 그게 플랫폼 수준의 인텔리전스"라며, "“우리는 이제 모바일에서 AI가 어떻게 동작하는지 완전히 새로 쓰고 있다. SME2, G1 GPU, 그리고 클레이디(Kleidi)AI 통합으로 개발자는 복잡한 최적화 없이 성능을 그대로 끌어올릴 수 있다. 루멕스는 단순한 기술 진화가 아니라, 모바일 지능이 작동하는 방식을 바꾸는 플랫폼이다"라고 강조했다.
한편, 공정과 관련된 질문에 맥니븐 부사장은 공정 관련 “루멕스는 2나노와 3나노 물리 구현을 모두 지원하지만, 파운드리별 세부 차이를 공개하진 않는다. 중요한 건 파트너가 얼마나 빨리 시장에 제품을 내놓느냐다"라며, “Arm은 물리 구현(Physical Implementation)까지 제공해 설계 시간을 단축시킨다. 파트너가 RTL을 수정하지 않아도 되는 구조다. 출시 주기를 1년 이상 줄일 수 있다"고 말하기도 했다.
댓글목록
등록된 댓글이 없습니다.