Cuidado de la Salud Visual en Marketing Digital: Prioridades y Recomendaciones
enero 24, 2024Cómo Crear Filtros Personalizados para Instagram
febrero 22, 2024Sora es un modelo de inteligencia artificial que puede crear escenas realistas e imaginativas a partir de instrucciones de texto.
Hoy, Sora está disponible para equipos de evaluación de riesgos para evaluar áreas críticas de peligro. También estamos otorgando acceso a varios artistas visuales, diseñadores y cineastas para obtener comentarios sobre cómo avanzar el modelo para que sea más útil para los profesionales creativos.
Estamos compartiendo nuestro progreso de investigación temprano para comenzar a trabajar y obtener comentarios de personas fuera de OpenAI y para dar al público una idea de qué capacidades de IA están en el horizonte.
Introduciendo a Sora, nuestro modelo de texto a video. Sora puede generar videos de hasta un minuto de duración manteniendo la calidad visual y la fidelidad a la indicación del usuario.
Sora es capaz de generar escenas complejas con múltiples personajes, tipos específicos de movimiento y detalles precisos del sujeto y el fondo. El modelo comprende no solo lo que el usuario ha solicitado en la indicación, sino también cómo existen esas cosas en el mundo físico.
El modelo tiene una comprensión profunda del lenguaje, lo que le permite interpretar con precisión las indicaciones y generar personajes convincentes que expresan emociones vibrantes. Sora también puede crear múltiples tomas dentro de un solo video generado que persisten con precisión los personajes y el estilo visual.
Sin embargo, el modelo actual tiene debilidades. Puede tener dificultades para simular con precisión la física de una escena compleja y puede no entender instancias específicas de causa y efecto. Por ejemplo, una persona podría darle un mordisco a una galleta, pero después la galleta podría no tener una marca de mordisco.
El modelo también puede confundir detalles espaciales de una indicación, por ejemplo, mezclar izquierda y derecha, y puede tener dificultades con descripciones precisas de eventos que ocurren a lo largo del tiempo, como seguir una trayectoria específica de la cámara.
Seguridad Tomaremos varios pasos importantes de seguridad antes de hacer que Sora esté disponible en los productos de OpenAI. Estamos trabajando con equipos de evaluación de riesgos, expertos en áreas como la desinformación, el contenido odioso y el sesgo, que probarán adversarialmente el modelo.
También estamos construyendo herramientas para ayudar a detectar contenido engañoso, como un clasificador de detección que puede decir cuándo un video fue generado por Sora. Planeamos incluir metadatos C2PA en el futuro si desplegamos el modelo en un producto de OpenAI.
Además de desarrollar nuevas técnicas para la implementación, estamos aprovechando los métodos de seguridad existentes que construimos para nuestros productos que utilizan DALL·E 3, que también son aplicables a Sora.
Investigación de técnicas Sora es un modelo de difusión, que genera un video comenzando con uno que parece ruido estático y lo transforma gradualmente eliminando el ruido en muchos pasos.
Sora es capaz de generar videos completos de una vez o extender videos generados para hacerlos más largos. Al darle al modelo previsión de muchos fotogramas a la vez, hemos resuelto un problema difícil de asegurar que un sujeto permanezca igual incluso cuando sale temporalmente de la vista.
Similar a los modelos GPT, Sora utiliza una arquitectura transformadora, desbloqueando un rendimiento de escalado superior.
Representamos videos e imágenes como colecciones de unidades de datos más pequeñas llamadas parches, cada una de las cuales es similar a un token en GPT. Al unificar cómo representamos los datos, podemos entrenar transformadores de difusión en una gama más amplia de datos visuales de lo que era posible antes, abarcando diferentes duraciones, resoluciones y relaciones de aspecto.
Sora se basa en investigaciones pasadas en los modelos DALL·E y GPT. Utiliza la técnica de recaptura de DALL·E 3, que implica generar leyendas altamente descriptivas para los datos de entrenamiento visual. Como resultado, el modelo es capaz de seguir las instrucciones de texto del usuario en el video generado con mayor fidelidad.
Además de poder generar un video únicamente a partir de instrucciones de texto, el modelo puede tomar una imagen fija existente y generar un video a partir de ella, animando los contenidos de la imagen con precisión y atención al pequeño detalle. El modelo también puede tomar un video existente y extenderlo o completar los fotogramas faltantes. Aprende más en nuestro informe técnico.
Sora sirve como base para modelos que pueden comprender y simular el mundo real, una capacidad que creemos será un hito importante para lograr la AGI.