빅테크/AMD

AMD의 반격, GPU·NPU 동시 활용 오픈소스 로컬 LLM 서버 ‘레모네이드’ 공개

Daily study 2026. 4. 4. 12:10

AMD 오픈소스 로컬 LLM 서버   '레모네이드(Lemonade)' 공개

 

안녕하세요! 읽자마자 흐름이 보이는 IT/경제 뉴스만 골라 전합니다.

최근 AI PC의 보급과 함께 데이터 프라이버시를 지킬 수 있는 로컬 LLM(Local Large Language Model)에 대한 기업과 개발자들의 관심이 그 어느 때보다 뜨겁습니다. 이런 가운데 AMD가 NVIDIA의 독주를 견제하며, GPU와 NPU를 동시에 활용하는 빠르고 강력한 오픈소스 로컬 LLM 서버 '레모네이드(Lemonade)'를 공개해 전 세계 IT 커뮤니티의 이목을 집중시키고 있습니다.

 

1. 레모네이드(Lemonade)란 무엇인가?

[출처] 파이토치(https://discuss.pytorch.kr/t/lemonade-gpu-npu-llm-feat-amd/7522)

 

레모네이드(Lemonade)는 AMD에서 공식적으로 선보인 오픈소스 로컬 LLM 서버(Open-source Local LLM Server)입니다.

이름에서 알 수 있듯 상큼하고 가벼운 사용성을 목표로 하며, 사용자의 PC나 로컬 서버 환경에서 대규모 언어 모델을 빠르고 효율적으로 구동할 수 있게 해줍니다.

 

해외 유명 IT 커뮤니티인 해커뉴스(Hacker News)에서 단숨에 500점이 넘는 높은 추천 수를 기록할 만큼 개발자들의 반응이 뜨거운데요, 그 이유는 단순히 AMD가 만들었기 때문이 아니라 기존 로컬 LLM 구동기들이 가지지 못했던 특별한 아키텍처를 채택했기 때문입니다.

2. 핵심 경쟁력: GPU와 NPU의 하이브리드 활용

레모네이드의 가장 큰 특징은 하드웨어 자원의 활용 방식에 있습니다. 기존의 로컬 LLM 구동 도구들은 대부분 그래픽 처리 장치인 GPU(Graphics Processing Unit)에만 전적으로 의존했습니다. 하지만 레모네이드는 GPU뿐만 아니라 최근 AI PC의

핵심으로 떠오른 NPU(Neural Processing Unit, 신경망 처리 장치)를 적극적으로 활용합니다.

왜 NPU를 함께 사용하는 것이 중요할까?

최근 출시되는 AMD 라이젠(Ryzen) 프로세서에는 AI 연산에 특화된 NPU가 탑재되어 있습니다. NPU는 GPU에 비해 전력 소모가 적고 특정 AI 추론 작업에서 매우 높은 효율을 보여줍니다.


레모네이드는 무거운 연산은 GPU에 맡기고, 병렬 처리가 필요한 특정 추론 작업이나 가벼운 에이전트(Agent) 작업은 NPU로 분산시킬 수 있습니다. 이를 통해 전체적인 추론 속도(Inference Speed)를 극대화하고 랩탑 환경에서는 배터리 소모를 획기적으로 줄이는 효과를 가져옵니다.

3. 개발자를 위한 완벽한 호환성: OpenAI API 지원

새로운 서버 환경을 도입할 때 개발자들이 가장 고민하는 부분은 '기존 코드와의 호환성'입니다. AMD는 이 점을 정확히 파악하여, 레모네이드 서버가 OpenAI API 규격을 완벽하게 지원(OpenAI API Compatible)하도록 설계했습니다.

즉, 기존에 챗GPT(ChatGPT) API를 사용해 만들어둔 애플리케이션이나 AI 서비스가 있다면, 복잡한 코드 수정 없이 단지 base_url만 레모네이드가 구동되는 로컬 주소로 변경해주면 됩니다.

 

이러한 편의성 덕분에 개발자들은 클라우드 비용 걱정 없이, 프라이빗한 로컬 환경에서 마음껏 AI 애플리케이션을 테스트하고 개발할 수 있습니다.

4. AMD 소프트웨어 생태계의 진화와 시장의 기대감

레모네이드는 단순한 실행 도구를 넘어, AMD가 자사 AI 하드웨어와 소프트웨어 생태계를 어떻게 연결할 것인지 보여주는 사례로 볼 수 있습니다. GitHub 저장소에는 이 프로젝트가 커뮤니티 중심으로 운영되며 AMD의 후원을 받고 있다고 명시되어 있고, AMD 역시 공식 기술 문서에서 레모네이드 서버를 Ryzen AI PC용 로컬 LLM 배포의 핵심 구성 요소로 소개하고 있습니다.

 

또한 레모네이드는 Windows용 원클릭 GUI 설치 프로그램뿐 아니라 Linux, macOS 베타 설치 경로도 제공하고 있어 접근성을 넓히고 있습니다. 다만 다시 강조하면, NPU·하이브리드 추론 지원은 현재 Windows 중심이라는 점은 함께 이해하는 것이 좋습니다.


핵심 요약

  • 레모네이드(Lemonade) 는 AMD가 후원하는 오픈소스 로컬 AI 서버/SDK 프로젝트로, 로컬 PC에서 LLM을 포함한 생성형 AI를 실행할 수 있도록 설계됐습니다.
  • OpenAI 호환 API를 제공해 기존 애플리케이션과의 연동이 비교적 쉽습니다.
  • NPU 및 하이브리드 추론은 현재 Windows에서 지원되며, 하이브리드 모드에서는 NPU가 프롬프트 처리, GPU가 토큰 생성을 맡습니다.
  • Ryzen AI 300·400 시리즈에서는 NPU 실행이 가능하지만, 7000·8000·200 시리즈는 GPU 가속 중심으로 안내되고 있습니다.