{"id":15643,"date":"2024-02-17T14:52:59","date_gmt":"2024-02-17T14:52:59","guid":{"rendered":"https:\/\/ingenio.la\/?p=15643"},"modified":"2026-04-11T18:07:48","modified_gmt":"2026-04-11T16:07:48","slug":"sora-open-ai","status":"publish","type":"post","link":"https:\/\/ingenio.la\/blog\/sora-open-ai\/","title":{"rendered":"SORA: Creando videos a partir de texto"},"content":{"rendered":"\t\t<div data-elementor-type=\"wp-post\" data-elementor-id=\"15643\" class=\"elementor elementor-15643\" data-elementor-post-type=\"post\">\n\t\t\t\t\t\t<section class=\"elementor-section elementor-top-section elementor-element elementor-element-b98d245 elementor-section-boxed elementor-section-height-default elementor-section-height-default\" data-id=\"b98d245\" data-element_type=\"section\" data-e-type=\"section\">\n\t\t\t\t\t\t<div class=\"elementor-container elementor-column-gap-default\">\n\t\t\t\t\t<div class=\"elementor-column elementor-col-100 elementor-top-column elementor-element elementor-element-240fca4\" data-id=\"240fca4\" data-element_type=\"column\" data-e-type=\"column\">\n\t\t\t<div class=\"elementor-widget-wrap elementor-element-populated\">\n\t\t\t\t\t\t<div class=\"elementor-element elementor-element-4229d39 elementor-widget elementor-widget-text-editor\" data-id=\"4229d39\" data-element_type=\"widget\" data-e-type=\"widget\" data-widget_type=\"text-editor.default\">\n\t\t\t\t\t\t\t\t\t<p>Sora es un modelo de inteligencia artificial que puede crear escenas realistas e imaginativas a partir de instrucciones de texto.<\/p><p>Hoy, Sora est\u00e1 disponible para equipos de evaluaci\u00f3n de riesgos para evaluar \u00e1reas cr\u00edticas de peligro. Tambi\u00e9n estamos otorgando acceso a varios artistas visuales, dise\u00f1adores y cineastas para obtener comentarios sobre c\u00f3mo avanzar el modelo para que sea m\u00e1s \u00fatil para los profesionales creativos.<\/p><p>Estamos compartiendo nuestro progreso de investigaci\u00f3n temprano para comenzar a trabajar y obtener comentarios de personas fuera de OpenAI y para dar al p\u00fablico una idea de qu\u00e9 capacidades de IA est\u00e1n en el horizonte.<\/p><p>Introduciendo a Sora, nuestro modelo de texto a video. Sora puede generar videos de hasta un minuto de duraci\u00f3n manteniendo la calidad visual y la fidelidad a la indicaci\u00f3n del usuario.<\/p><p>Sora es capaz de generar escenas complejas con m\u00faltiples personajes, tipos espec\u00edficos de movimiento y detalles precisos del sujeto y el fondo. El modelo comprende no solo lo que el usuario ha solicitado en la indicaci\u00f3n, sino tambi\u00e9n c\u00f3mo existen esas cosas en el mundo f\u00edsico.<\/p>\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<div class=\"elementor-element elementor-element-93d6955 elementor-widget elementor-widget-text-editor\" data-id=\"93d6955\" data-element_type=\"widget\" data-e-type=\"widget\" data-widget_type=\"text-editor.default\">\n\t\t\t\t\t\t\t\t\t<p><iframe title=\"Tokyo walk\" src=\"https:\/\/player.vimeo.com\/video\/913331489?h=d6b3d4c2bd&amp;dnt=1&amp;app_id=122963\" width=\"800\" height=\"450\" frameborder=\"0\" allow=\"autoplay; fullscreen; picture-in-picture; clipboard-write; encrypted-media; web-share\" referrerpolicy=\"strict-origin-when-cross-origin\"><\/iframe><\/p>\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/section>\n\t\t\t\t<section class=\"elementor-section elementor-top-section elementor-element elementor-element-c050cdb elementor-section-boxed elementor-section-height-default elementor-section-height-default\" data-id=\"c050cdb\" data-element_type=\"section\" data-e-type=\"section\">\n\t\t\t\t\t\t<div class=\"elementor-container elementor-column-gap-default\">\n\t\t\t\t\t<div class=\"elementor-column elementor-col-100 elementor-top-column elementor-element elementor-element-429cb9b\" data-id=\"429cb9b\" data-element_type=\"column\" data-e-type=\"column\">\n\t\t\t<div class=\"elementor-widget-wrap elementor-element-populated\">\n\t\t\t\t\t\t<div class=\"elementor-element elementor-element-ed8696d elementor-widget elementor-widget-text-editor\" data-id=\"ed8696d\" data-element_type=\"widget\" data-e-type=\"widget\" data-widget_type=\"text-editor.default\">\n\t\t\t\t\t\t\t\t\t<p>El modelo tiene una comprensi\u00f3n profunda del lenguaje, lo que le permite interpretar con precisi\u00f3n las indicaciones y generar personajes convincentes que expresan emociones vibrantes. Sora tambi\u00e9n puede crear m\u00faltiples tomas dentro de un solo video generado que persisten con precisi\u00f3n los personajes y el estilo visual.<\/p><p>Sin embargo, el modelo actual tiene debilidades. Puede tener dificultades para simular con precisi\u00f3n la f\u00edsica de una escena compleja y puede no entender instancias espec\u00edficas de causa y efecto. Por ejemplo, una persona podr\u00eda darle un mordisco a una galleta, pero despu\u00e9s la galleta podr\u00eda no tener una marca de mordisco.<\/p><p>El modelo tambi\u00e9n puede confundir detalles espaciales de una indicaci\u00f3n, por ejemplo, mezclar izquierda y derecha, y puede tener dificultades con descripciones precisas de eventos que ocurren a lo largo del tiempo, como seguir una trayectoria espec\u00edfica de la c\u00e1mara.<\/p>\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/section>\n\t\t\t\t<section class=\"elementor-section elementor-top-section elementor-element elementor-element-52122dc elementor-section-boxed elementor-section-height-default elementor-section-height-default\" data-id=\"52122dc\" data-element_type=\"section\" data-e-type=\"section\">\n\t\t\t\t\t\t<div class=\"elementor-container elementor-column-gap-default\">\n\t\t\t\t\t<div class=\"elementor-column elementor-col-100 elementor-top-column elementor-element elementor-element-2dd74e4\" data-id=\"2dd74e4\" data-element_type=\"column\" data-e-type=\"column\">\n\t\t\t<div class=\"elementor-widget-wrap elementor-element-populated\">\n\t\t\t\t\t\t<div class=\"elementor-element elementor-element-5d63689 elementor-widget elementor-widget-text-editor\" data-id=\"5d63689\" data-element_type=\"widget\" data-e-type=\"widget\" data-widget_type=\"text-editor.default\">\n\t\t\t\t\t\t\t\t\t<p><iframe title=\"Gold Rush\" src=\"https:\/\/player.vimeo.com\/video\/913131741?h=b1dacaa83a&amp;dnt=1&amp;app_id=122963\" width=\"800\" height=\"450\" frameborder=\"0\" allow=\"autoplay; fullscreen; picture-in-picture; clipboard-write; encrypted-media; web-share\" referrerpolicy=\"strict-origin-when-cross-origin\"><\/iframe><\/p>\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<div class=\"elementor-element elementor-element-9cd3fb3 elementor-widget elementor-widget-text-editor\" data-id=\"9cd3fb3\" data-element_type=\"widget\" data-e-type=\"widget\" data-widget_type=\"text-editor.default\">\n\t\t\t\t\t\t\t\t\t<p>Seguridad Tomaremos varios pasos importantes de seguridad antes de hacer que Sora est\u00e9 disponible en los productos de OpenAI. Estamos trabajando con equipos de evaluaci\u00f3n de riesgos, expertos en \u00e1reas como la desinformaci\u00f3n, el contenido odioso y el sesgo, que probar\u00e1n adversarialmente el modelo.<\/p><p>Tambi\u00e9n estamos construyendo herramientas para ayudar a detectar contenido enga\u00f1oso, como un clasificador de detecci\u00f3n que puede decir cu\u00e1ndo un video fue generado por Sora. Planeamos incluir metadatos C2PA en el futuro si desplegamos el modelo en un producto de OpenAI.<\/p><p>Adem\u00e1s de desarrollar nuevas t\u00e9cnicas para la implementaci\u00f3n, estamos aprovechando los m\u00e9todos de seguridad existentes que construimos para nuestros productos que utilizan DALL\u00b7E 3, que tambi\u00e9n son aplicables a Sora.<\/p><p>Investigaci\u00f3n de t\u00e9cnicas Sora es un modelo de difusi\u00f3n, que genera un video comenzando con uno que parece ruido est\u00e1tico y lo transforma gradualmente eliminando el ruido en muchos pasos.<\/p><p>Sora es capaz de generar videos completos de una vez o extender videos generados para hacerlos m\u00e1s largos. Al darle al modelo previsi\u00f3n de muchos fotogramas a la vez, hemos resuelto un problema dif\u00edcil de asegurar que un sujeto permanezca igual incluso cuando sale temporalmente de la vista.<\/p><p>Similar a los modelos GPT, Sora utiliza una arquitectura transformadora, desbloqueando un rendimiento de escalado superior.<\/p><p>Representamos videos e im\u00e1genes como colecciones de unidades de datos m\u00e1s peque\u00f1as llamadas parches, cada una de las cuales es similar a un token en GPT. Al unificar c\u00f3mo representamos los datos, podemos entrenar transformadores de difusi\u00f3n en una gama m\u00e1s amplia de datos visuales de lo que era posible antes, abarcando diferentes duraciones, resoluciones y relaciones de aspecto.<\/p><p>Sora se basa en investigaciones pasadas en los modelos DALL\u00b7E y GPT. Utiliza la t\u00e9cnica de recaptura de DALL\u00b7E 3, que implica generar leyendas altamente descriptivas para los datos de entrenamiento visual. Como resultado, el modelo es capaz de seguir las instrucciones de texto del usuario en el video generado con mayor fidelidad.<\/p><p>Adem\u00e1s de poder generar un video \u00fanicamente a partir de instrucciones de texto, el modelo puede tomar una imagen fija existente y generar un video a partir de ella, animando los contenidos de la imagen con precisi\u00f3n y atenci\u00f3n al peque\u00f1o detalle. El modelo tambi\u00e9n puede tomar un video existente y extenderlo o completar los fotogramas faltantes. Aprende m\u00e1s en nuestro informe t\u00e9cnico.<\/p><p>Sora sirve como base para modelos que pueden comprender y simular el mundo real, una capacidad que creemos ser\u00e1 un hito importante para lograr la AGI.<\/p>\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/section>\n\t\t\t\t<\/div>\n\t\t","protected":false},"excerpt":{"rendered":"<p>Sora es un modelo de inteligencia artificial que puede crear escenas realistas e imaginativas a partir de instrucciones de texto. Hoy, Sora est\u00e1 disponible para equipos de evaluaci\u00f3n de riesgos para evaluar \u00e1reas cr\u00edticas de peligro. Tambi\u00e9n estamos otorgando acceso a varios artistas visuales, dise\u00f1adores y cineastas para obtener comentarios sobre c\u00f3mo avanzar el modelo [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":15653,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[9],"tags":[],"class_list":["post-15643","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-inteligencia-artificial"],"_links":{"self":[{"href":"https:\/\/ingenio.la\/blog\/wp-json\/wp\/v2\/posts\/15643","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/ingenio.la\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/ingenio.la\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/ingenio.la\/blog\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/ingenio.la\/blog\/wp-json\/wp\/v2\/comments?post=15643"}],"version-history":[{"count":3,"href":"https:\/\/ingenio.la\/blog\/wp-json\/wp\/v2\/posts\/15643\/revisions"}],"predecessor-version":[{"id":24768,"href":"https:\/\/ingenio.la\/blog\/wp-json\/wp\/v2\/posts\/15643\/revisions\/24768"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/ingenio.la\/blog\/wp-json\/wp\/v2\/media\/15653"}],"wp:attachment":[{"href":"https:\/\/ingenio.la\/blog\/wp-json\/wp\/v2\/media?parent=15643"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/ingenio.la\/blog\/wp-json\/wp\/v2\/categories?post=15643"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/ingenio.la\/blog\/wp-json\/wp\/v2\/tags?post=15643"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}