IA y Tecnología

Google DeepMind lanza Gemma 4: inteligencia multimodal de frontera llega a dispositivos locales con código abierto

El modelo 31B alcanza 1.452 puntos en LMArena; el MoE de 26B logra 1.441 con solo 4B parámetros activos — licencia Apache 2.0 para uso comercial libre

유재민··6 min de lectura·
Welcome Gemma 4: Frontier multimodal intelligence on device
Resumen
  • Google DeepMind lanza Gemma 4 con el modelo denso 31B obteniendo 1.452 y el MoE de 26B logrando 1.441 en LMArena.
  • Lanzamiento completamente abierto bajo Apache 2.0 con soporte multimodal de imagen, texto y audio para implementación local.
  • Las innovaciones arquitectónicas PLE, Caché KV Compartida y RoPE Dual mejoran la eficiencia de memoria y el manejo de contextos largos.

La revolución multimodal en dispositivos de Google DeepMind

Google DeepMind ha lanzado oficialmente la familia de modelos multimodales de código abierto Gemma 4 a través de Hugging Face. Publicados bajo licencia Apache 2.0, los modelos admiten entradas de imagen, texto y audio. El modelo denso de 31B obtuvo una puntuación estimada en LMArena de 1.452 (solo texto), mientras que el modelo de Mezcla de Expertos (MoE) de 26B alcanzó 1.441 con solo 4.000 millones de parámetros activos. El lanzamiento es compatible con los principales motores de inferencia: transformers, llama.cpp, MLX, WebGPU y Rust.

Por qué importa Gemma 4

Gemma 4 no es una simple mejora de rendimiento. Su relevancia radica en llevar inteligencia multimodal de nivel frontera al ecosistema de código abierto, incluyendo la implementación en dispositivos locales.

Mientras que los modelos multimodales de código abierto anteriores se limitaban en su mayoría a entradas de imagen y texto, las variantes más pequeñas de Gemma 4 (E2B, E4B) también admiten audio, lo que permite el procesamiento de voz en tiempo real junto con la generación de texto en dispositivos de borde.

La compatibilidad con proporciones de aspecto variables y cinco niveles de presupuesto de tokens de imagen (70, 140, 280, 560, 1.120) permite a los usuarios ajustar el equilibrio entre velocidad, memoria y calidad, haciendo que la misma familia de modelos sirva desde aplicaciones móviles hasta implementaciones en servidores.

Hugging Face señaló que durante las pruebas previas al lanzamiento, el rendimiento de base era tan bueno que resultaba difícil encontrar ejemplos de fine-tuning significativos.

¿Qué cambió respecto a versiones anteriores?

CaracterísticaGemma 3Gemma 3nGemma 4Cambio
MultimodalImagen+TextoImagen+Texto+AudioImagen+Texto+Audio+VídeoVídeo añadido
Proporción de aspectoFijaFijaVariableMayor flexibilidad
Presupuesto tokens imagenÚnicoÚnico5 niveles ajustablesBalance rendimiento-eficiencia
Caché KVEstándarEstándarCaché KV compartidaMayor eficiencia de memoria
EmbeddingsÚnicoPLE introducidoPLE extendidoSeñal residual por capa
Puntuación LMArena1.452 (31B) / 1.441 (26B MoE)Nivel frontera alcanzado
LicenciaApache 2.0Apache 2.0Apache 2.0Sin cambios

Tres innovaciones arquitectónicas clave

Embeddings por capa (PLE, Per-Layer Embeddings): En los transformers estándar, cada token recibe un único vector de embedding en la entrada. PLE añade una segunda tabla de embeddings que inyecta una pequeña señal residual en cada capa del decodificador, permitiendo representaciones más ricas dependientes del contexto.

Caché KV compartida (Shared KV Cache): Las últimas N capas reutilizan los estados clave-valor de las capas anteriores, eliminando proyecciones KV redundantes y reduciendo tanto el uso de memoria como la latencia de inferencia.

Configuración dual de RoPE: RoPE estándar para las capas de ventana deslizante y RoPE podado para las capas de atención global, lo que permite un procesamiento eficiente de contextos largos. Los modelos densos pequeños usan ventanas de 512 tokens; los más grandes, de 1.024.

El recorrido de Gemma: la estrategia de código abierto de Google

La entrada seria de Google en el código abierto de IA es relativamente reciente. Tras el explosivo crecimiento de ChatGPT en 2023, las series LLaMA de Meta y los lanzamientos abiertos de Mistral demostraron que los modelos de código abierto podían rivalizar con los propietarios.

Google DeepMind se unió a la carrera del código abierto a principios de 2024 con Gemma 1. Gemma 2 mejoró la eficiencia de parámetros para el mercado de modelos pequeños; Gemma 3 añadió multimodalidad imagen-texto; Gemma 3n se centró en la optimización en dispositivo e introdujo por primera vez PLE y soporte de audio.

Gemma 4 integra todos estos avances en una familia cohesionada, demostrando la tesis de que los modelos de código abierto pueden alcanzar rendimiento de frontera.

¿Qué viene ahora? [Análisis experto]

El lanzamiento de Gemma 4 probablemente reconfigurará el panorama competitivo de la IA de código abierto.

La IA en dispositivo se vuelve mainstream: Con variantes pequeñas capaces de procesar audio localmente, es probable que proliferen rápidamente aplicaciones de IA centradas en la privacidad que reduzcan la dependencia de APIs en la nube.

Nuevo estándar para el despliegue empresarial rentable: La puntuación LMArena de 1.441 del modelo MoE de 26B con solo 4B parámetros activos indica costes de inferencia drásticamente menores, lo que probablemente acelerará la adopción de Gemma 4 entre startups.

Se intensifica la competencia por el estándar multimodal: Es probable que el soporte de proporciones variables y el control de tokens de imagen en cinco niveles presionen a los competidores a adoptar funciones similares en las próximas actualizaciones de GPT-4o, Claude y otros modelos líderes.

Implicaciones estratégicas del Apache 2.0: La licencia comercial completa permite la integración directa en productos, fortaleciendo los vínculos del ecosistema Google Cloud y ampliando la influencia de Google en la comunidad de IA de código abierto.

El ritmo al que la IA de código abierto ha ido alcanzando a los modelos de frontera se ha acelerado notablemente desde 2024. Gemma 4 es probable que se convierta en un hito significativo en esa trayectoria.

Compartir

댓글 (73)

제주의해방금 전

몰랐던 사실을 알게 됐습니다. Google 기사에서 언급된 사례가 흥미로웠습니다.

꼼꼼한크리에이터방금 전

친구한테도 추천했습니다.

차분한강아지방금 전

lanza 관련 데이터가 인상적이었습니다. 계속 지켜봐야겠습니다.

신중한고양이방금 전

gemma-4 관련 용어 설명이 친절해서 좋았습니다. 해외 동향도 함께 다뤄주시면 좋겠습니다.

홍대의시민방금 전

깔끔한 기사입니다. LLM 관련 용어 설명이 친절해서 좋았습니다.

대전의피아노방금 전

Google이 일상에 어떤 영향을 줄지 생각해보게 됩니다.

유쾌한부엉이방금 전

잘 읽었습니다. DeepMind의 향후 전망이 궁금합니다.

인천의부엉이방금 전

lanza이 앞으로 어떻게 전개될지 주목해야겠습니다. 잘 정리된 기사네요.

성수의에스프레소5분 전

gemma-4 관련 배경 설명이 이해하기 쉬웠습니다. 해외 동향도 함께 다뤄주시면 좋겠습니다.

오후의판다5분 전

유익한 기사네요. LLM 기사에서 언급된 사례가 흥미로웠습니다. 해외 동향도 함께 다뤄주시면 좋겠습니다.

꼼꼼한판다5분 전

Google 기사에서 언급된 사례가 흥미로웠습니다. 계속 지켜봐야겠습니다.

인천의구름5분 전

매일 여기서 뉴스 보고 있어요.

인천의비평가5분 전

lanza에 대해 처음 접하는 정보가 있었습니다.

열정적인녹차5분 전

gemma-4에 대해 주변 사람들과 이야기 나눠볼 만합니다.

활발한고양이5분 전

LLM의 전문가 코멘트가 설득력 있었습니다.

공원의고양이12분 전

Google에 대해 주변 사람들과 이야기 나눠볼 만합니다.

공원의분석가12분 전

좋은 정리입니다. DeepMind이 앞으로 어떻게 전개될지 주목해야겠습니다.

유쾌한바이올린12분 전

참고가 됩니다. lanza 관련 배경 설명이 이해하기 쉬웠습니다. 전문가 의견도 더 듣고 싶습니다.

솔직한리더12분 전

흥미로운 주제입니다. gemma-4 관련 데이터가 인상적이었습니다.

새벽의돌고래12분 전

구독 중인데 만족합니다.

새벽의펭귄12분 전

다양한 주제를 다뤄주셔서 좋습니다.

바닷가의사자12분 전

DeepMind 주제로 시리즈 기사가 나오면 좋겠습니다.

강남의녹차30분 전

lanza 관련 배경 설명이 이해하기 쉬웠습니다.

아침의분석가30분 전

gemma-4에 대해 더 알고 싶어졌습니다. 후속 기사 부탁드립니다.

서울의부엉이30분 전

LLM이 일상에 어떤 영향을 줄지 생각해보게 됩니다.

느긋한별30분 전

흥미로운 주제입니다. Google에 대해 더 알고 싶어졌습니다.

홍대의사색가30분 전

읽기 좋은 기사입니다. DeepMind에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다. 다른 시각의 분석도 읽어보고 싶습니다.

제주의탐험가30분 전

lanza의 전문가 코멘트가 설득력 있었습니다. 좋은 기사 감사합니다.

현명한워커30분 전

깔끔한 기사입니다. gemma-4 주제로 시리즈 기사가 나오면 좋겠습니다.

카페의에스프레소30분 전

참고가 됩니다. LLM 관련 통계가 의외였습니다.

차분한크리에이터1시간 전

Google이 앞으로 어떻게 전개될지 주목해야겠습니다. 계속 지켜봐야겠습니다.

신중한강아지1시간 전

핵심만 잘 정리해주시네요.

진지한드럼1시간 전

좋은 기사 감사합니다.

한밤의여우1시간 전

좋은 정리입니다. gemma-4에 대해 주변 사람들과 이야기 나눠볼 만합니다.

봄날의돌고래1시간 전

유익한 기사네요. LLM이 일상에 어떤 영향을 줄지 생각해보게 됩니다. 나중에 다시 읽어볼 만합니다.

공원의부엉이1시간 전

객관적인 시각이 돋보이는 기사입니다.

신중한구름1시간 전

DeepMind에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다.

솔직한해2시간 전

잘 읽었습니다. lanza에 대해 주변 사람들과 이야기 나눠볼 만합니다. 나중에 다시 읽어볼 만합니다.

따뜻한달2시간 전

gemma-4이 일상에 어떤 영향을 줄지 생각해보게 됩니다.

재빠른첼로2시간 전

LLM 관련 해외 동향도 궁금합니다.

산속의돌고래2시간 전

몰랐던 사실을 알게 됐습니다. Google에 대해 더 알고 싶어졌습니다.

활발한시민2시간 전

기사 잘 읽었습니다.

유쾌한관찰자2시간 전

참고가 됩니다. lanza의 전문가 코멘트가 설득력 있었습니다.

밝은바람2시간 전

gemma-4 관련 데이터가 인상적이었습니다.

부지런한돌고래3시간 전

LLM 관련 용어 설명이 친절해서 좋았습니다. 생각이 바뀌었습니다.

똑똑한아메리카노3시간 전

Google 관련 데이터가 인상적이었습니다.

도서관의별3시간 전

이런 시각도 있었군요. DeepMind에 대해 주변 사람들과 이야기 나눠볼 만합니다.

열정적인구름3시간 전

lanza에 대해 더 알고 싶어졌습니다.

부산의사색가3시간 전

깔끔한 기사입니다. gemma-4에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다. 해외 동향도 함께 다뤄주시면 좋겠습니다.

산속의탐험가3시간 전

이런 시각도 있었군요. LLM이 일상에 어떤 영향을 줄지 생각해보게 됩니다.

열정적인시민3시간 전

이런 시각도 있었군요. Google 관련 해외 동향도 궁금합니다.

한밤의리더3시간 전

몰랐던 사실을 알게 됐습니다. DeepMind에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다. 좋은 기사 감사합니다.

맑은날여우5시간 전

기사 퀄리티가 좋습니다.

밝은워커5시간 전

기자님 수고하셨습니다.

바람의리더5시간 전

읽기 좋은 기사입니다. LLM에 대해 주변 사람들과 이야기 나눠볼 만합니다.

신중한커피5시간 전

잘 읽었습니다. Google 주제로 시리즈 기사가 나오면 좋겠습니다. 주변에도 공유해야겠어요.

밝은첼로5시간 전

유익한 기사네요. DeepMind에 대해 주변 사람들과 이야기 나눠볼 만합니다.

따뜻한다람쥐5시간 전

유익한 기사네요. lanza에 대해 더 알고 싶어졌습니다.

부지런한여우5시간 전

북마크해두겠습니다. gemma-4에 대한 다른 매체 보도와 비교해봐도 잘 정리되어 있습니다. 주변에도 공유해야겠어요.

느긋한관찰자8시간 전

LLM의 전문가 코멘트가 설득력 있었습니다. 나중에 다시 읽어볼 만합니다.

재빠른펭귄8시간 전

Google의 전문가 코멘트가 설득력 있었습니다.

냉철한토끼8시간 전

DeepMind 관련 데이터가 인상적이었습니다.

느긋한드럼8시간 전

흥미로운 주제입니다. lanza의 향후 전망이 궁금합니다. 좋은 기사 감사합니다.

부산의판다8시간 전

gemma-4이 앞으로 어떻게 전개될지 주목해야겠습니다. 전문가 의견도 더 듣고 싶습니다.

봄날의구름8시간 전

LLM 관련 해외 동향도 궁금합니다. 후속 기사 부탁드립니다.

똑똑한분석가8시간 전

Google 관련 해외 동향도 궁금합니다.

호기심많은피아노

DeepMind이 앞으로 어떻게 전개될지 주목해야겠습니다. 해외 동향도 함께 다뤄주시면 좋겠습니다.

해운대의돌고래

lanza 주제로 시리즈 기사가 나오면 좋겠습니다. 잘 정리된 기사네요.

저녁의시민

gemma-4 관련 배경 설명이 이해하기 쉬웠습니다.

여름의달

LLM 기사에서 언급된 사례가 흥미로웠습니다.

용감한여우

참고가 됩니다. Google 주제로 시리즈 기사가 나오면 좋겠습니다. 전문가 의견도 더 듣고 싶습니다.

열정적인다람쥐

좋은 정리입니다. DeepMind 관련 통계가 의외였습니다. 다른 시각의 분석도 읽어보고 싶습니다.

부산의러너

lanza이 일상에 어떤 영향을 줄지 생각해보게 됩니다.

Más de esta serie

Más en IA y Tecnología

Últimas noticias