Google presentó la red neuronal Imagen
Miscelánea / / May 24, 2022
Y lo hace al menos tan bien como DALL-E 2.
Google Anunciado Imagen es una red neuronal que convierte una consulta de texto en imágenes. Es un competidor directo. DALL-E2 de OpenAI, que funciona incluso mejor en algunos escenarios.
Para reconocer una consulta de texto, la red neuronal utiliza grandes modelos de lenguaje; los algoritmos de procesamiento de voz natural como GPT-3 también se basan en ellos.
El sistema funciona en tres etapas. El primero dibuja una imagen pequeña de 64 x 64 píxeles, que se refina hasta que la red neuronal puede cambiarla para que coincida mejor con la solicitud original. Luego, la imagen se escala a 256 x 256 píxeles e Imagen refina los detalles. En la tercera etapa, ya se repite lo mismo con el lienzo del tamaño final: 1024 x 1024 píxeles.
El texto del estudio señala que Imagen hace frente a la comprensión de consultas complejas mejor que DALL-E 2. Por ejemplo, para la consulta "Panda hace arte latte", DALL-E 2 devolvió exclusivamente arte latte con pandas, mientras que la red neuronal de Google logró producir resultados mayormente correctos:
Pero Google también admite que ninguna de estas redes neuronales podría manejar la consulta "astronauta montando a caballo": ambos ponen obstinadamente al astronauta en el caballo, y no al revés. Ambos obviamente tienen espacio para crecer.
Los resultados de la evaluación de espectadores independientes muestran que Imagen supera a DALL-E 2 en términos de precisión y relevancia. Y aunque esta comparación puede considerarse subjetiva, tales resultados no dejan de ser impresionantes, dado que DALL-E 2 ha sido hasta ahora un ideal inalcanzable que otras redes neuronales de naturaleza similar no han podido igualar. destino.
En cualquier caso, Imagen sigue siendo por ahora un proyecto experimental al que no pueden acceder los usuarios habituales. No está claro cuánto tiempo pasará antes de que Google cree un servicio de acceso abierto basado en él.
Leer también🧐
- La nueva red neuronal Paint Transformer convierte una foto en un objeto de pintura
- Polaroid del futuro: la nueva red neuronal de NVIDIA convierte imágenes 2D en modelos 3D
- Sber lanzó la red neuronal ruDALL-E, que genera imágenes según la descripción
Mejor oferta de la semana: descuentos de AliExpress, Lamoda, Mixit y otras tiendas