1-1.PNG
□ (해외) 전통의 반도체 기업과 非반도체 기업의 AI 반도체 개발 활발
ㅇ (엔비디아) ‘컴퓨텍스(COMPUTEX) 2022(대만, 5.24∼27)’에서 AI 생태계 구축을 위해 데이터센터를 AI팩토리로 재구성하는 전략을 발표하고 이 전략의 필수가 되는 CPU 슈퍼칩 공개
- 클라우드 환경이 일반화되면서 데이터센터의 역할이 데이터 저장만이 아닌 고객 상대, 제품 분석 및 추천 등 다양한 지능화 작업까지 확대, 이러한 변화를 이끌 수 있는 핵심 요소로 프로세서의 조화 강조
※ CPU는 전체 시스템을 관리하고 GPU는 연산을 수행하며 DPU(Data Processing Unit)는 네트워크 트래픽을 안전하게 처리하면서 인-네트워크 컴퓨팅을 수행해 성능을 최적화한다는 것
- AI팩토리 구축의 필수가 되는 CPU 슈퍼칩 시스템으로 △엔비디아 그레이스 CPU 슈퍼칩 △엔비디아 그레이스 호퍼 슈퍼칩 등 두 종류 공개
- 그레이스 CPU 슈퍼칩은 HPC 및 클라우드 컴퓨팅을 위한 고성능 CPU로 최대 144개의 Arm v9 CPU 코어를 탑재한 슈퍼칩 설계가 가능, 세계 최초 ECC 메모리를 사용하는 LPDDR5x, 1TB/s의 총 대역폭 제공
- 그레이스 호퍼 슈퍼칩은 HPC 및 대규모 AI 애플리케이션을 처리하도록 설계된 통합 모듈에서 NVLink-C2C 기술을 사용하여 그레이스 CPU와 엔비디아 호퍼 GPU를 결합하는 역할
- 이번 CPU 슈퍼칩은 2023년 상반기부터 에이수스, 폭스콘, 기가바이트, 슈퍼마이크로 등의 서버 모델을 통해 출시 계획
1-2.PNG
ㅇ (인텔) 기술 발전과 차기 전략을 공개하는 인텔비전컨퍼런스(Intel Vision Conference, 5.10)’에서 하나랩스*가 AI 학습용 프로세서 ‘가우디2’와 추론용 프로세서 ‘그레코’ 공개
* 인텔이 ’19년 약 20억 달러에 인수한 이스라엘 스타트업
1-3.PNG
- 가우디2 프로세서와 그레코 프로세서는 AI 딥러닝 처리 역량을 대폭 개선했으며 데이터 센터 컴퓨터 비전, 자연어 애플리케이션을 위한 고성능 모델 학습과 추론에 활용
- 전작 가우디1은 16나노 공정 기반, 가우디2는 7나노 공정 기반으로 향상되었으며 매트릭스 곱셈 엔진(MME)과 텐서 프로세서 코어 컴퓨팅 엔진에 FP8(새로운 텐서 처리 형식) 도입
- 텐서 프로세서 코어는 8개에서 24개로 증가, 메모리는 기존 32GB에서 96GB HBM2E로 3배 증가한 2.45TB/초 대역폭의 인패키지 메모리 용량 제공
- ‘엔비디아 A100’ 제품 대비 2배 높은 자연어처리(NLP) 학습 성능을 제공한다고 설명
- 가우드2는 점점 더 크고 복잡해지는 딥러닝 워크로드를 빠르고 효율적으로 훈련하는 데 유용하고 그레코 프로세서가 가져올 추론 효율성도 기대
ㅇ (IBM) AI 추론 전용 가속 칩 ‘텔럼(Telum)※’과 양자 내성 암호 시스템을 탑재한 메인프레임 신제품 ‘IBM z16’ 공개(4.5)
- 7nm EUV 기술 노드에서 개발한 텔럼 프로세서는 거래 처리(금융·매매·보험 등) 중에 AI 추론 기술을 적용할 수 있도록 온칩 가속 기술을 포함한 프로세서
- IBM 텔럼프로세서 기반 방식으로 AI 추론을 결합해 안전한 대용량 거래 처리를 지원. 1밀리초(ms)의 지연 시간으로 하루에 3,000억 개 추론 처리 가능
- 의료·금융 거래와 같은 실시간 거래를 대규모로 분석할 수 있도록 설계되었으며 특히 IBM의 선도적인 보안 기술을 갖춘 것이 특징
1-4.PNG
ㅇ (퀄컴) AI과 연결된 지능형 엣지(Connected Intelligent Edge)에서 리더십을 가속하는 퀄컴 AI 스택(Qualcomm® AI Stack) 포트폴리오 발표(6.28)
- 텐서플로우(TensorFlow), 파이토치(PyTorch), ONNX 등 다양한 AI 프레임워크와 대중적으로 사용하는 런타임, 개발자 라이브러리 및 서비스, 시스템 소프트웨어, 툴, 컴파일러를 지원해 특정 기기에 맞게 개발된 AI기능을 다른 기기에도 쉽게 적용 가능
- 업계 최고 수준 AI 소프트웨어를 통합·향상시킨 퀄컴 AI 스택은 제조사·개발자를 위한 종합 AI 솔루션으로 광범위한 AI 소프트웨어 접근성과 호환성을 기반으로 다양한 지능형 기기 지원
- 퀄컴의 종합 AI 포트폴리오는 퀄컴 AI 엔진 다이렉트(Qualcomm® AI Engine Direct)를 통해 퀄컴 AI 엔진(Qualcomm® AI Engine) 및 퀄컴 클라우드 AI 100(Qualcomm® Cloud AI 100)의 전용 AI 코어에 대한 접근성을 제공
1-5.PNG
ㅇ (AMD) 490억 달러 규모의 자일링스(Xilinx) 인수 완료(2.14) 후 슈퍼 컴퓨팅, 그래픽, SoC 포트폴리오를 확대하는 등 클라우드, 엣지 및 지능형 컴퓨팅 시장에서 영향력 발휘
- ‘컴퓨텍스(COMPUTEX) 2022’에서 젠4(Zen 4) 기반 데스크톱PC용 프로세서인 라이젠 7000 시리즈와 이를 지원·연결하는 3개의 소켓으로 구성된 AM5 칩셋 세부 내용 공개
- 라이젠 7000 시리즈는 TSMC 5나노급 공정으로 생산하며 AM5 플랫폼 기반으로 더 많은 기능과 향상된 성능을 지원하며 전력 효율이 뛰어난 젠4 코어로 작동
- 작동 클록을 5GHz 이상으로 높일 수 있고 IPC(클록당 명령어 처리 수)를 높여 전 세대 대비 싱글스레드(1코어) 성능을 최대 15% 향상
- AI 연산 가속을 위한 기능과 함께 고성능 제품군에도 내장 그래픽 기능 장착
- AM5는 DDR5 듀얼채널 메모리와 최대 PCI 익스프레스 5.0 레인(데이터 전송 통로) 24개를 지원하며 한 소켓에 최대 170W 전력 공급이 가능
1-6.PNG
ㅇ (애플) ‘M1’의 혁신 성능과 역량을 끌어올린 ‘M2’
- ‘M1’은 CPU(중앙처리장치)와 GPU (그래픽처리장치), 신경망처리장치(NPU), 메모리(RAM) 등을 하나의 칩으로 통합한 고성능 시스템반도체로 아이폰·맥(Mac) 등 애플 HW 기기에 장착
- WWDC 2022에서 선보인 차기 버전 M2는 2세대 5나노미터 기술과 200억 개 트랜지스터를 사용해 제작하여 우수한 속도와 전력효율, 통합 메모리 아키텍처, 강력한 보안 성능 구현
- 전작인 M1 대비 18% 향상된 속도의 CPU, 35% 강력한 수준의 GPU, 40% 향상된 속도의 뉴럴엔진* 장착, 50% 확장된 메모리 대역폭과 최대 24GB의 고속 통합 메모리 등 진일보
* 뉴럴엔진은 초당 최대 15조 8,000억 회의 연산을 처리하며 이는 M1 대비 40% 향상된 처리량
- M2는 새로운 맞춤형 기술 탑재, 효율성 강화의 강점을 살려 새롭게 디자인된 맥북에어와 맥북프로13에 탑재
1-7.PNG
ㅇ (구글) 데이터 분석과 딥러닝을 위한 TPU(Tensor Processing Unit) 1세대 출시(’16년) 후 현재 4세대(TPU v4) 버전까지 업데이트(’21.5)하고 금년 6월 구글 클라우드가 TPU v4를 기반으로 한 머신러닝 클러스터 발표
- 이 머신러닝 클러스터를 활용해 대규모 자연어처리(NLP)와 추천 시스템, 컴퓨터 비전 모델용 워크로드를 클라우드 TPU v4에서 훈련할 수 있으며 초거대 AI와 같은 대규모 모델의 고속 훈련도 가능
- 각각의 클라우드 TPU v4 포드는 4,096개의 칩이 상호연결된 초고속 네트워크로 구성되어 있으며 호스트 당 6Tbps(초당 테라비트) 대역폭 지원
- LG AI 연구원의 초거대 AI 모델 LG엑사원은 TPU v4를 활용해 6,000억 개 이상의 말뭉치와 2억 5,000만 개 이상의 이미지로 구성된 방대한 데이터 학습
- 한편 구글과 UC 버클리(Berkeley) 연구팀은 기존의 설계 데이터와 성능 수치를 바탕으로 AI 칩 아키텍처를 생성하는 ‘PRIME’이라는 딥 러닝 접근 방식 개발
- 새로운 접근 방식은 구글의 EdgeTPU 가속기나 기존 도구를 사용해 만든 다른 설계보다 지연 시간이 짧고 공간이 덜 필요한 설계 가능
ㅇ (테슬라) 올 상반기 주목받을만한 기술 공개는 없었으나 ’21.8월 전용 반도체 칩 D1을 공개하며 기술력을 과시한 만큼, 향후 행보에 이목 집중
- 2021년 8월 소개한 ‘D1’은 완전자율주행 시스템(FSD: Full Self Driving) 구현을 위해 최상의 AI 학습 성능을 보유한 슈퍼컴퓨터 ‘도조’에서 대용량 정보 처리를 담당할 전용 반도체 칩
- 도조는 네트워크 패브릭으로 연결된 분산 컴퓨팅 아키텍처로 대규모 컴퓨팅 플레인, 짧은 지연 시간의 매우 높은 대역폭, 파티션 분할과 맵핑된 형태로 설계
- D1은 50만 개 노드를 동시에 처리하며 초당 36TB의 속도로 데이터 처리. 고성능 유지를 위해 개별 프로세서에 직접 전원 공급하는 통합 구조로 완성
- 서버용 칩과 통합 시스템, 컴퓨팅 클러스터와 이를 구동하는 소프트웨어까지 모두 독자 설계해 병목현상 없이 모든 단계가 잘 작동하는데 중점
1-8.PNG
□ (국내) 통신사 진출이 활기를 띠며 연구개발 속도
ㅇ (KT) 하드웨어와 소프트웨어를 동시에 제공하는 풀스택 사업자로 도약하기 위해 AI 스타트업과 협력을 확대하며 반도체 생태계 구축 박차
- 2021년 국내 AI 인프라 솔루션 전문기업인 ‘모레’에 투자한 이후 올 7월 AI 반도체 팹리스 회사인 리벨리온*에 300억 원 투자를 발표하며 AI 반도체 사업 공략 본격화
* 2020년 설립한 리벨리온은 주문형 반도체(ASIC) 설계 분야에 강점
- 모레·리벨리온과 함께 차세대 AI 반도체 설계와 검증, 대용량 언어모델 협업 등을 추진할 계획
- KT그룹의 AI 인프라·응용 서비스, 모레의 AI 반도체 구동 소프트웨어, 리벨리온의 AI 반도체 역량을 융합해 그래픽처리장치(GPU) 수천 개가 들어가는 ‘GPU팜’을 연내 구축하고 2023년 GPU팜에 자체 개발한 AI 반도체를 접목할 계획
- 또한 AI 알고리즘 연산에 최적화된 신경망처리장치(NPU)를 개발하여 KT의 모빌리티, 금융 디지털전환(DX) 등 다양한 영역에서 활용·성과를 바탕으로 해외 판로를 확보해 나갈 방침
1-9.PNG
ㅇ (SKT) 2020년 국내 최초 개발한 AI 반도체 ‘사피온 X220’을 앞세워 지난 4월 사피온 한·미 법인을 설립하고 2023년 차기작 준비에 나서며 선점 행보 박차
- 2020년 11월 ‘사피온 X220’을 공개하며 AI 반도체 시장 진출 포문을 연 데 이어 2023년 초에는 사피온 X330, 사피온 X340, 사피온 X350 등 3종의 차세대 버전을 출시할 계획
- 사피온 X220은 비슷한 사양의 그래픽처리장치(GPU) 대비 연산속도가 1.5배 빠르고 전력 사용량은 80% 수준이며 가격은 50%에 불과
- 후속 제품인 X330, X340, X350 역시 데이터센터용 활용에 중점을 두면서 자동차, 보안, 미디어, 스마트팩토리 등 사용처를 확대하기 위해 제품 크기와 구조에서 다소 차이를 둘 전망
- 2025년에는 모회사 SK하이닉스와 협력한 사피온 X430을 선보일 예정
- 사피온 X430은 더 강화된 AI 추론·학습 성능에 SK하이닉스가 개발한 차세대 적층형 메모리 ‘HBM3’을 적용한다는 구상
- 사피온은 NPU(Neural Processing Unit) 분야 선두, 팹리스 강자로 성장해 나가고 이를 기반으로 SKT는 AI 반도체 칩 기반 하드웨어부터 AI 알고리즘, API(응용 프로그램 인터페이스) 등 소프트웨어까지 AI 서비스 제공에 필요한 통합 솔루션을 제공하는 ‘AIaaS(AI as a Service, 서비스형 AI)’ 전략을 통해 글로벌 시장 주도권을 확보한다는 포부
1-10.PNG
ㅇ (LG전자) AI 반도체 독자 개발 집중…차세대 칩 2023년 출시 목표
- 로봇청소기?세탁기?냉장고?에어컨 등 다양한 제품에 범용으로 사용할 수 있는 ‘AI 칩*’ 공개(2019.5.16) 이후 제품군을 확대하고 자사 가전제품에 적용 본격화
* △AI 시스템온칩(SoC) ‘LG8111' △마이크로컨트롤러유닛(MCU) 'LG8211’
- LG전자의 AI 반도체는 로봇청소기 카메라를 통해 촬영된 이미지를 분석해 장애물을 감지해 주는 역할, 세탁기·에어컨·냉장고 등 가전제품 전반에 적용 가능
- 자사 가전제품의 고객 경험 향상을 위한 맞춤형 가전제품 개발을 위해 AI 반도체 개발이 필수 이며 향후 공장 자동화, 자동차 분야에서도 AI 칩 공급을 목표
- ‘2022 국제 인공지능 회로 및 시스템 학술대회(AICAS 2022)’에 참석해 2023년 또는 2024년 출시를 목표로 CPU, MPU 기능이 더 향상된 차세대 AI 반도체를 개발하고 있다고 언급
1-11.PNG
ㅇ (삼성전자) 업계 최고 속도 GDDR6 D램 개발 및 세계 첫 3나노 양산 시작…AI 기반의 고성능 제품 구현 기대
- 24Gbps GDDR6 D램은 EUV(극자외선) 노광 장비를 활용한 3세대 10나노급(1z)* 공정을 기반으로 한 16Gb 제품
* 10나노급 D램은 1세대(1x), 2세대(1y), 3세대(1z), 4세대(1a) 등으로 표기
- 국제 반도체 표준화 기구 JEDEC*의 표준규격에 맞춰 GDDR6 D램을 개발해, AI/그래픽 가속기 업체들이 쉽게 채용할 수 있도록 호환성을 확보하면서도 업계 최고 속도를 구현
* JEDEC: Joint Electron Device Engineering Council
- 24Gbps GDDR6 D램을 프리미엄급 그래픽 카드에 탑재할 경우, 최대 초당 1.1TB의 데이터를 처리. 이는 풀HD급 영화 275편을 1초 만에 처리할 수 있는 속도
1-12.PNG
- 또한 세계 최초로 MBCFET GAA(Gate-All-Around) 기술을 적용한 3나노(nm, 1㎚=10억 분의 1m. 반도체 회로 선폭) 파운드리 공정 기반의 초도 양산을 시작(6.30)
- 나노시트 형태의 독자적인 MBCFET GAA 기술의 세계 첫 적용과 설계 공정 기술을 최적화하여 PPA(Power:소비전력, Performance:성능, Area:면적)를 극대화
- 선제적인 첨단 제품은 출시와 개발은 PC, 노트북, 게임 콘솔 등 우수한 그래픽 성능이 요구되는 분야에서 더욱 차별화된 사용자 경험을 제공하고 향후 차세대 고성능 컴퓨팅(HPC), 전기차, 자율주행차 등 다양한 분야에서도 폭넓게 활용될 것으로 기대