IA y Tecnología

Google DeepMind lanza Gemma 4: inteligencia multimodal de frontera llega a dispositivos locales con código abierto

El modelo 31B alcanza 1.452 puntos en LMArena; el MoE de 26B logra 1.441 con solo 4B parámetros activos — licencia Apache 2.0 para uso comercial libre

유재민·2026년 4월 1일 수 15:00·6 min de lectura·

Welcome Gemma 4: Frontier multimodal intelligence on device

Resumen

•Google DeepMind lanza Gemma 4 con el modelo denso 31B obteniendo 1.452 y el MoE de 26B logrando 1.441 en LMArena.
•Lanzamiento completamente abierto bajo Apache 2.0 con soporte multimodal de imagen, texto y audio para implementación local.
•Las innovaciones arquitectónicas PLE, Caché KV Compartida y RoPE Dual mejoran la eficiencia de memoria y el manejo de contextos largos.

La revolución multimodal en dispositivos de Google DeepMind

Google DeepMind ha lanzado oficialmente la familia de modelos multimodales de código abierto Gemma 4 a través de Hugging Face. Publicados bajo licencia Apache 2.0, los modelos admiten entradas de imagen, texto y audio. El modelo denso de 31B obtuvo una puntuación estimada en LMArena de 1.452 (solo texto), mientras que el modelo de Mezcla de Expertos (MoE) de 26B alcanzó 1.441 con solo 4.000 millones de parámetros activos. El lanzamiento es compatible con los principales motores de inferencia: transformers, llama.cpp, MLX, WebGPU y Rust.

Por qué importa Gemma 4

Gemma 4 no es una simple mejora de rendimiento. Su relevancia radica en llevar inteligencia multimodal de nivel frontera al ecosistema de código abierto, incluyendo la implementación en dispositivos locales.

Mientras que los modelos multimodales de código abierto anteriores se limitaban en su mayoría a entradas de imagen y texto, las variantes más pequeñas de Gemma 4 (E2B, E4B) también admiten audio, lo que permite el procesamiento de voz en tiempo real junto con la generación de texto en dispositivos de borde.

La compatibilidad con proporciones de aspecto variables y cinco niveles de presupuesto de tokens de imagen (70, 140, 280, 560, 1.120) permite a los usuarios ajustar el equilibrio entre velocidad, memoria y calidad, haciendo que la misma familia de modelos sirva desde aplicaciones móviles hasta implementaciones en servidores.

Hugging Face señaló que durante las pruebas previas al lanzamiento, el rendimiento de base era tan bueno que resultaba difícil encontrar ejemplos de fine-tuning significativos.

¿Qué cambió respecto a versiones anteriores?

Característica	Gemma 3	Gemma 3n	Gemma 4	Cambio
Multimodal	Imagen+Texto	Imagen+Texto+Audio	Imagen+Texto+Audio+Vídeo	Vídeo añadido
Proporción de aspecto	Fija	Fija	Variable	Mayor flexibilidad
Presupuesto tokens imagen	Único	Único	5 niveles ajustables	Balance rendimiento-eficiencia
Caché KV	Estándar	Estándar	Caché KV compartida	Mayor eficiencia de memoria
Embeddings	Único	PLE introducido	PLE extendido	Señal residual por capa
Puntuación LMArena	—	—	1.452 (31B) / 1.441 (26B MoE)	Nivel frontera alcanzado
Licencia	Apache 2.0	Apache 2.0	Apache 2.0	Sin cambios

Tres innovaciones arquitectónicas clave

Embeddings por capa (PLE, Per-Layer Embeddings): En los transformers estándar, cada token recibe un único vector de embedding en la entrada. PLE añade una segunda tabla de embeddings que inyecta una pequeña señal residual en cada capa del decodificador, permitiendo representaciones más ricas dependientes del contexto.

Caché KV compartida (Shared KV Cache): Las últimas N capas reutilizan los estados clave-valor de las capas anteriores, eliminando proyecciones KV redundantes y reduciendo tanto el uso de memoria como la latencia de inferencia.

Configuración dual de RoPE: RoPE estándar para las capas de ventana deslizante y RoPE podado para las capas de atención global, lo que permite un procesamiento eficiente de contextos largos. Los modelos densos pequeños usan ventanas de 512 tokens; los más grandes, de 1.024.

El recorrido de Gemma: la estrategia de código abierto de Google

La entrada seria de Google en el código abierto de IA es relativamente reciente. Tras el explosivo crecimiento de ChatGPT en 2023, las series LLaMA de Meta y los lanzamientos abiertos de Mistral demostraron que los modelos de código abierto podían rivalizar con los propietarios.

Google DeepMind se unió a la carrera del código abierto a principios de 2024 con Gemma 1. Gemma 2 mejoró la eficiencia de parámetros para el mercado de modelos pequeños; Gemma 3 añadió multimodalidad imagen-texto; Gemma 3n se centró en la optimización en dispositivo e introdujo por primera vez PLE y soporte de audio.

Gemma 4 integra todos estos avances en una familia cohesionada, demostrando la tesis de que los modelos de código abierto pueden alcanzar rendimiento de frontera.

¿Qué viene ahora? [Análisis experto]

El lanzamiento de Gemma 4 probablemente reconfigurará el panorama competitivo de la IA de código abierto.

La IA en dispositivo se vuelve mainstream: Con variantes pequeñas capaces de procesar audio localmente, es probable que proliferen rápidamente aplicaciones de IA centradas en la privacidad que reduzcan la dependencia de APIs en la nube.

Nuevo estándar para el despliegue empresarial rentable: La puntuación LMArena de 1.441 del modelo MoE de 26B con solo 4B parámetros activos indica costes de inferencia drásticamente menores, lo que probablemente acelerará la adopción de Gemma 4 entre startups.

Se intensifica la competencia por el estándar multimodal: Es probable que el soporte de proporciones variables y el control de tokens de imagen en cinco niveles presionen a los competidores a adoptar funciones similares en las próximas actualizaciones de GPT-4o, Claude y otros modelos líderes.

Implicaciones estratégicas del Apache 2.0: La licencia comercial completa permite la integración directa en productos, fortaleciendo los vínculos del ecosistema Google Cloud y ampliando la influencia de Google en la comunidad de IA de código abierto.

El ritmo al que la IA de código abierto ha ido alcanzando a los modelos de frontera se ha acelerado notablemente desde 2024. Gemma 4 es probable que se convierta en un hito significativo en esa trayectoria.

#deepmind-series #gemma-4 #LLM #멀티모달 #온디바이스 #오픈소스모델 #MoE

제주의해방금 전

몰랐던 사실을 알게 됐습니다. Google 기사에서 언급된 사례가 흥미로웠습니다.

꼼꼼한크리에이터방금 전

친구한테도 추천했습니다.

차분한강아지방금 전

lanza 관련 데이터가 인상적이었습니다. 계속 지켜봐야겠습니다.

신중한고양이방금 전

gemma-4 관련 용어 설명이 친절해서 좋았습니다. 해외 동향도 함께 다뤄주시면 좋겠습니다.

홍대의시민방금 전

깔끔한 기사입니다. LLM 관련 용어 설명이 친절해서 좋았습니다.

대전의피아노방금 전

Google이 일상에 어떤 영향을 줄지 생각해보게 됩니다.

유쾌한부엉이방금 전

잘 읽었습니다. DeepMind의 향후 전망이 궁금합니다.

인천의부엉이방금 전

lanza이 앞으로 어떻게 전개될지 주목해야겠습니다. 잘 정리된 기사네요.

성수의에스프레소5분 전

gemma-4 관련 배경 설명이 이해하기 쉬웠습니다. 해외 동향도 함께 다뤄주시면 좋겠습니다.

오후의판다5분 전

유익한 기사네요. LLM 기사에서 언급된 사례가 흥미로웠습니다. 해외 동향도 함께 다뤄주시면 좋겠습니다.

꼼꼼한판다5분 전

Google 기사에서 언급된 사례가 흥미로웠습니다. 계속 지켜봐야겠습니다.

인천의구름5분 전

매일 여기서 뉴스 보고 있어요.

인천의비평가5분 전

lanza에 대해 처음 접하는 정보가 있었습니다.

열정적인녹차5분 전

gemma-4에 대해 주변 사람들과 이야기 나눠볼 만합니다.

활발한고양이5분 전

LLM의 전문가 코멘트가 설득력 있었습니다.

공원의고양이12분 전

Google에 대해 주변 사람들과 이야기 나눠볼 만합니다.

공원의분석가12분 전

좋은 정리입니다. DeepMind이 앞으로 어떻게 전개될지 주목해야겠습니다.

유쾌한바이올린12분 전

참고가 됩니다. lanza 관련 배경 설명이 이해하기 쉬웠습니다. 전문가 의견도 더 듣고 싶습니다.

솔직한리더12분 전

흥미로운 주제입니다. gemma-4 관련 데이터가 인상적이었습니다.

새벽의돌고래12분 전

구독 중인데 만족합니다.

새벽의펭귄12분 전

다양한 주제를 다뤄주셔서 좋습니다.

바닷가의사자12분 전

DeepMind 주제로 시리즈 기사가 나오면 좋겠습니다.

강남의녹차30분 전

lanza 관련 배경 설명이 이해하기 쉬웠습니다.

아침의분석가30분 전

gemma-4에 대해 더 알고 싶어졌습니다. 후속 기사 부탁드립니다.

서울의부엉이30분 전

LLM이 일상에 어떤 영향을 줄지 생각해보게 됩니다.

느긋한별30분 전

흥미로운 주제입니다. Google에 대해 더 알고 싶어졌습니다.

홍대의사색가30분 전

읽기 좋은 기사입니다. DeepMind에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다. 다른 시각의 분석도 읽어보고 싶습니다.

제주의탐험가30분 전

lanza의 전문가 코멘트가 설득력 있었습니다. 좋은 기사 감사합니다.

현명한워커30분 전

깔끔한 기사입니다. gemma-4 주제로 시리즈 기사가 나오면 좋겠습니다.

카페의에스프레소30분 전

참고가 됩니다. LLM 관련 통계가 의외였습니다.

차분한크리에이터1시간 전

Google이 앞으로 어떻게 전개될지 주목해야겠습니다. 계속 지켜봐야겠습니다.

신중한강아지1시간 전

핵심만 잘 정리해주시네요.

진지한드럼1시간 전

좋은 기사 감사합니다.

한밤의여우1시간 전

좋은 정리입니다. gemma-4에 대해 주변 사람들과 이야기 나눠볼 만합니다.

봄날의돌고래1시간 전

유익한 기사네요. LLM이 일상에 어떤 영향을 줄지 생각해보게 됩니다. 나중에 다시 읽어볼 만합니다.

공원의부엉이1시간 전

객관적인 시각이 돋보이는 기사입니다.

신중한구름1시간 전

DeepMind에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다.

솔직한해2시간 전

잘 읽었습니다. lanza에 대해 주변 사람들과 이야기 나눠볼 만합니다. 나중에 다시 읽어볼 만합니다.

따뜻한달2시간 전

gemma-4이 일상에 어떤 영향을 줄지 생각해보게 됩니다.

재빠른첼로2시간 전

LLM 관련 해외 동향도 궁금합니다.

산속의돌고래2시간 전

몰랐던 사실을 알게 됐습니다. Google에 대해 더 알고 싶어졌습니다.

활발한시민2시간 전

기사 잘 읽었습니다.

유쾌한관찰자2시간 전

참고가 됩니다. lanza의 전문가 코멘트가 설득력 있었습니다.

밝은바람2시간 전

gemma-4 관련 데이터가 인상적이었습니다.

부지런한돌고래3시간 전

LLM 관련 용어 설명이 친절해서 좋았습니다. 생각이 바뀌었습니다.

똑똑한아메리카노3시간 전

Google 관련 데이터가 인상적이었습니다.

도서관의별3시간 전

이런 시각도 있었군요. DeepMind에 대해 주변 사람들과 이야기 나눠볼 만합니다.

열정적인구름3시간 전

lanza에 대해 더 알고 싶어졌습니다.

부산의사색가3시간 전

깔끔한 기사입니다. gemma-4에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다. 해외 동향도 함께 다뤄주시면 좋겠습니다.

산속의탐험가3시간 전

이런 시각도 있었군요. LLM이 일상에 어떤 영향을 줄지 생각해보게 됩니다.

열정적인시민3시간 전

이런 시각도 있었군요. Google 관련 해외 동향도 궁금합니다.

한밤의리더3시간 전

몰랐던 사실을 알게 됐습니다. DeepMind에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다. 좋은 기사 감사합니다.

맑은날여우5시간 전

기사 퀄리티가 좋습니다.

밝은워커5시간 전

기자님 수고하셨습니다.

바람의리더5시간 전

읽기 좋은 기사입니다. LLM에 대해 주변 사람들과 이야기 나눠볼 만합니다.

신중한커피5시간 전

잘 읽었습니다. Google 주제로 시리즈 기사가 나오면 좋겠습니다. 주변에도 공유해야겠어요.

밝은첼로5시간 전

유익한 기사네요. DeepMind에 대해 주변 사람들과 이야기 나눠볼 만합니다.

따뜻한다람쥐5시간 전

유익한 기사네요. lanza에 대해 더 알고 싶어졌습니다.

부지런한여우5시간 전

북마크해두겠습니다. gemma-4에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다. 주변에도 공유해야겠어요.

느긋한관찰자8시간 전

LLM의 전문가 코멘트가 설득력 있었습니다. 나중에 다시 읽어볼 만합니다.

재빠른펭귄8시간 전

Google의 전문가 코멘트가 설득력 있었습니다.

냉철한토끼8시간 전

DeepMind 관련 데이터가 인상적이었습니다.

느긋한드럼8시간 전

흥미로운 주제입니다. lanza의 향후 전망이 궁금합니다. 좋은 기사 감사합니다.

부산의판다8시간 전

gemma-4이 앞으로 어떻게 전개될지 주목해야겠습니다. 전문가 의견도 더 듣고 싶습니다.

봄날의구름8시간 전

LLM 관련 해외 동향도 궁금합니다. 후속 기사 부탁드립니다.

똑똑한분석가8시간 전

Google 관련 해외 동향도 궁금합니다.

호기심많은피아노

DeepMind이 앞으로 어떻게 전개될지 주목해야겠습니다. 해외 동향도 함께 다뤄주시면 좋겠습니다.

해운대의돌고래

lanza 주제로 시리즈 기사가 나오면 좋겠습니다. 잘 정리된 기사네요.

저녁의시민

gemma-4 관련 배경 설명이 이해하기 쉬웠습니다.

여름의달

LLM 기사에서 언급된 사례가 흥미로웠습니다.

용감한여우

참고가 됩니다. Google 주제로 시리즈 기사가 나오면 좋겠습니다. 전문가 의견도 더 듣고 싶습니다.

열정적인다람쥐

좋은 정리입니다. DeepMind 관련 통계가 의외였습니다. 다른 시각의 분석도 읽어보고 싶습니다.

부산의러너

lanza이 일상에 어떤 영향을 줄지 생각해보게 됩니다.

Más de esta serie

젠슨 황 "앤트로픽 투자 못 한 건 내 실수"…구글·아마존 칩 위협론은 일축

16/4/2026

Google DeepMind presenta Gemini 3.1 Flash TTS: una nueva era de voz expresiva con IA

15/4/2026

Google DeepMind lanza Gemini Robotics-ER 1.6 con razonamiento espacial y comprensión multivista mejorados

13/4/2026

Google DeepMind presenta Gemma 4: declara tener los modelos abiertos más capaces 'byte a byte'

2/4/2026

Google DeepMind lanza el modelo de voz IA 'Gemini 3.1 Flash Live'

26/3/2026

Más en IA y Tecnología

Últimas noticias

Especial

ICIJ investiga las estrategias de precios y patentes de Merck con Keytruda

El ICIJ revela las estrategias de precios y patentes de Merck con Keytruda en la investigación Cancer Calculus.

29분 전

MIDDLE EAST LIVE 17 April: Israel-Lebanon ceasefire begins

Global

Entra en vigor la tregua de 10 días entre Israel y Líbano; la ONU espera que abra negociaciones

Un alto el fuego de 10 días entre Israel y Líbano entró en vigor el 17 de abril a medianoche.

7시간 전

Especial

JWST, 성간 혜성 3I/ATLAS에서 메테인 최초 검출…외계 행성계 단서 포착

JWST가 성간 혜성 3I/ATLAS에서 메테인을 최초 직접 검출, 외계 행성계 내부 조성 단서 확보.

8시간 전

Global

IMF, 7년 만에 베네수엘라와 관계 재개…49억 달러 동결 해제 기대

IMF가 2019년 이후 중단됐던 베네수엘라와의 공식 관계를 7년 만에 재개했다.

10시간 전

The nation’s cartoonists on the week in politics

Global

Los caricaturistas de EE.UU. retratan la semana política en Washington

Los caricaturistas políticos de todo EE.UU. documentan la era mediante sátira semanal.

10시간 전

Economía

IMF, 7년 만에 베네수엘라와 관계 재개…49억 달러 동결 해제 가능성

IMF가 7년 만에 베네수엘라와 공식 협력을 재개하기로 결정했다.

11시간 전

david altrath documents the jungle suspended inside london's barbican conservatory

Cultura y Arte

Cuando la jungla devoró el hormigón: la paradoja del Conservatorio Barbican de Londres

El fotógrafo Altrath capta en una nueva serie la paradoja espacial del Conservatorio Barbican de Londres.

11시간 전

Economía

경상흑자 역대 최대인데 원화는 왜 약해지나

한국은행, 경상흑자에도 원화 약세 이어지는 구조적 원인 공식 분석.

11시간 전

ArayoNews

Google DeepMind lanza Gemma 4: inteligencia multimodal de frontera llega a dispositivos locales con código abierto

La revolución multimodal en dispositivos de Google DeepMind

Por qué importa Gemma 4

¿Qué cambió respecto a versiones anteriores?

Tres innovaciones arquitectónicas clave

El recorrido de Gemma: la estrategia de código abierto de Google

¿Qué viene ahora? [Análisis experto]

댓글 (73)

Más de esta serie

Más en IA y Tecnología

애플 맥북 네오 4월 물량 완판...신규 주문 5월로 밀려

OpenAI, 생명과학 전용 추론 AI 'GPT-Rosalind' 출시… 신약 개발 패러다임 흔든다

EU, Anthropic의 Claude Mythos AI 사이버 위협 놓고 직접 협의 개시

퍼플렉시티, Mac 전용 AI 에이전트 'Personal Computer' 정식 출시

글로벌 금융당국, Anthropic 'Mythos' AI 사이버 위협에 일제히 긴급 대응

앤스로픽, 런던에 800명 규모 사무소 확보…미 국방부 갈등 속 유럽 거점 구축

Últimas noticias

ICIJ investiga las estrategias de precios y patentes de Merck con Keytruda

Entra en vigor la tregua de 10 días entre Israel y Líbano; la ONU espera que abra negociaciones

JWST, 성간 혜성 3I/ATLAS에서 메테인 최초 검출…외계 행성계 단서 포착

IMF, 7년 만에 베네수엘라와 관계 재개…49억 달러 동결 해제 기대

Los caricaturistas de EE.UU. retratan la semana política en Washington

IMF, 7년 만에 베네수엘라와 관계 재개…49억 달러 동결 해제 가능성

Cuando la jungla devoró el hormigón: la paradoja del Conservatorio Barbican de Londres

경상흑자 역대 최대인데 원화는 왜 약해지나