OpenAI SORA là gì? Model text to video tốt nhất hiện nay!

OpenAI SORA vừa được ra mắt, đây là model text to video tốt nhất hiện nay. OpenAI SORA có khả năng chuyển văn bản thành video với độ dài 60s vượt xa Runway, Pika…

OpenAI SORA là gì?

Sora là mô hình ngôn ngữ lớn (LLM) AI có thể tạo ra những video chân thực và giàu trí tưởng tượng từ những hướng dẫn bằng văn bản.

Mời bạn xem thêm tại https://openai.com/sora

OpenAI SORA làm được gì?

Sora có thể tạo ra những cảnh phức tạp với nhiều nhân vật, các kiểu chuyển động cụ thể cũng như các chi tiết chính xác về chủ đề và bối cảnh. Mô hình không chỉ hiểu những gì người dùng yêu cầu trong lời nhắc mà còn hiểu những thứ đó tồn tại như thế nào trong thế giới thực.

Mô hình này có sự hiểu biết sâu sắc về ngôn ngữ, cho phép diễn giải chính xác các lời nhắc và tạo ra các nhân vật hấp dẫn thể hiện cảm xúc sôi động. Sora cũng có thể tạo nhiều cảnh quay trong một video được tạo duy nhất để duy trì chính xác các ký tự và phong cách hình ảnh.

Mời bạn cùng tham khảo một số video được tạo bởi OpenAI SORA

Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.
Prompt: Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field.
Prompt: Historical footage of California during the gold rush.
Prompt: Animated scene features a close-up of a short fluffy monster kneeling beside a melting red candle. the art style is 3d and realistic, with a focus on lighting and texture. the mood of the painting is one of wonder and curiosity, as the monster gazes at the flame with wide eyes and open mouth. its pose and expression convey a sense of innocence and playfulness, as if it is exploring the world around it for the first time. the use of warm colors and dramatic lighting further enhances the cozy atmosphere of the image.

Mời bạn xem thêm video tạo bởi SORA tại https://openai.com/sora

Sora là một mô hình diffusion, tạo ra một video bằng cách bắt đầu với một video static noise và dần dần biến đổi video đó bằng cách loại bỏ nhiễu qua nhiều bước.

Sora có khả năng tạo toàn bộ video cùng một lúc hoặc mở rộng các video đã tạo để làm chúng dài hơn. Bằng cách cung cấp cho mô hình khả năng dự đoán nhiều khung hình cùng một lúc, chúng tôi đã giải quyết được một vấn đề đầy thách thức là đảm bảo đối tượng vẫn giữ nguyên ngay cả khi nó tạm thời nằm ngoài tầm nhìn.

Tương tự như các mô hình GPT, Sora sử dụng kiến ​​trúc máy biến áp, mang lại hiệu suất mở rộng vượt trội.

Chúng tôi trình bày video và hình ảnh dưới dạng tập hợp các đơn vị dữ liệu nhỏ hơn được gọi là bản vá, mỗi bản vá giống như một mã thông báo trong GPT. Bằng cách thống nhất cách biểu diễn dữ liệu, chúng tôi có thể huấn luyện các máy biến áp khuếch tán trên phạm vi dữ liệu hình ảnh rộng hơn trước đây, trải rộng trên các khoảng thời lượng, độ phân giải và tỷ lệ khung hình khác nhau.

Sora xây dựng dựa trên nghiên cứu trước đây về mô hình DALL·E và GPT. Nó sử dụng kỹ thuật ghi chú lại từ DALL·E 3, bao gồm việc tạo chú thích mang tính mô tả cao cho dữ liệu đào tạo trực quan. Do đó, mô hình có thể làm theo hướng dẫn bằng văn bản của người dùng trong video được tạo một cách trung thực hơn.

Ngoài khả năng tạo video chỉ từ hướng dẫn bằng văn bản, mô hình còn có thể chụp ảnh tĩnh hiện có và tạo video từ đó, tạo hoạt ảnh cho nội dung của hình ảnh một cách chính xác và chú ý đến từng chi tiết nhỏ. Mô hình này cũng có thể lấy một video hiện có và mở rộng nó hoặc điền vào các khung hình còn thiếu. Tìm hiểu thêm trong bài viết kỹ thuật của chúng tôi (sẽ ra mắt sau hôm nay).

Sora đóng vai trò là nền tảng cho các mô hình có thể hiểu và mô phỏng thế giới thực, khả năng mà chúng tôi tin rằng sẽ là một cột mốc quan trọng để đạt được AGI.

Leave a Reply

Your email address will not be published. Required fields are marked *