Tin mới Thị trường

OpenAI Sora là gì? Giò đây việc làm phim đã dễ dàng hơn bao giờ hết

Trần Quang Huy
16/02/24

OpenAI vừa công bố Sora, có khả năng tạo các video dài đến một phút từ những mô tả văn bản

Nhắc đến AI, không một ai lại có thể quên được cái tên "làm mưa làm gió" suốt quãng thời gian vừa qua chính là ChatGPT, một sản phẩm đến từ OpenAI. Tuy nhiên, thay vì sử dụng câu lệnh để tạo ra hình ảnh thì giờ đây OpenAI đã đem đến Sora có thể làm nên những thước phim đỉnh cao. Vậy OpenAI Sora là gì? Hãy cùng tìm hiểu ở bài viết bên dưới nhé!

OpenAI Sora là gì?

Sora là mô hình AI tạo văn bản thành video của OpenAI. Điều đó có nghĩa là bạn có thể sáng tạo video bằng văn bản và Sora sẽ tạo ra một video khớp với những gì bạn đã viết. 

Theo OpenAI, các video do Sora tạo ra có "cảnh quay với độ chi tiết cao, chuyển động máy ảnh phức tạp và nhiều nhân vật với cảm xúc sống động". OpenAI đã đăng tải một loạt video do Sora tạo ra trên Twitter, bao gồm một người phụ nữ sành điệu đi bộ trên đường phố Tokyo và đoạn giới thiệu phim được làm từ AI.

OpenAI đã đăng tải một loạt video do Sora tạo ra trên Twitter

OpenAI Sora hoạt động ra sao?

Giống như các mô hình AI tạo văn bản thành hình ảnh như DALL·E 3, StableDiffusion và Midjourney, Sora là một mô hình khuếch đại. Điều đó có nghĩa là Sora bắt đầu với mỗi khung hình của video bao gồm nhiễu tĩnh và sử dụng công nghệ học máy để chuyển đổi dần dần hình ảnh thành nội dung giống với mô tả trong văn bản. Video Sora có thể dài tới 60 giây.

Một lĩnh vực đổi mới của Sora là có thể xem xét nhiều khung hình video cùng một lúc, giải quyết vấn đề giữ các đối tượng nhất quán khi chúng di chuyển vào và ra khỏi tầm nhìn. 

Sora có thể tạo ra video với độ dài lên đến 60 giây (Ảnh: CineD)

Khi kết hợp hai loại mô hình này, Jack Qiao lưu ý rằng "các mô hình khuếch đại rất tốt trong việc tạo ra kết cấu ở mức độ thấp nhưng lại kém ở thành phần tổng thể, trong khi sự biến  lại có vấn đề ngược lại." Nghĩa là, bạn muốn một mô hình biến đổi giống GPT xác định bố cục cấp cao của các khung hình video và mô hình khuếch đại để tạo ra các chi tiết.

Trong một bài viết kỹ thuật về việc triển khai Sora, OpenAI cung cấp mô tả cấp cao về cách hoạt động của sự kết hợp này. Trong các mô hình khuếch đại, hình ảnh được chia thành các “mảng” hình chữ nhật nhỏ hơn. Đối với video, các bản vá này có dạng ba chiều vì chúng tồn tại theo thời gian.

Sora có phần phức tạp hơn trong việc xử lý văn bản thành video (Ảnh: ABC)

Các bản vá có thể được coi là tương đương với "mã kí tự" trong các mô hình ngôn ngữ lớn: thay vì là một thành phần của câu, chúng là thành phần của một tập hợp hình ảnh. Phần biến áp của mô hình tổ chức các bản vá và phần khuếch tán của mô hình tạo ra nội dung cho từng bản vá.

Một điểm khác biệt của kiến ​​trúc kết hợp này là để làm cho việc tạo video trở nên khả thi về mặt tính toán, quá trình tạo các bản vá sử dụng bước giảm kích thước để việc tính toán không cần phải diễn ra trên từng pixel cho mỗi khung hình.

Để nắm bắt một cách trung thực nội dung văn bản của người dùng, Sora sử dụng kỹ thuật ghi chú lại cũng có sẵn trong DALL·E 3. Điều này có nghĩa là trước khi tạo bất kỳ video nào, GPT được sử dụng để viết lại văn bản của người dùng để lấy được nhiều chi tiết hơn. Đó là một hình thức kỹ thuật tự động và nhanh chóng.

Sora có thể biến những câu lệnh phức tạp từ người dùng thành video hoàn chỉnh (Ảnh: Forbes)

OpenAI Sora làm được những gì?

Sora có thể được sử dụng để tạo video từ đầu hoặc mở rộng các video hiện có để làm chúng dài hơn. Công cụ này cũng có thể thêm vào các khung hình còn thiếu từ video.

Tương tự như cách mà các công cụ AI tạo văn bản thành hình ảnh đã giúp việc tạo hình ảnh mà không cần chuyên môn về chỉnh sửa hình ảnh trở nên dễ dàng hơn đáng kể, Sora hứa hẹn sẽ giúp việc tạo video mà không cần kinh nghiệm chỉnh sửa để mọi thứ trở nên dễ dàng hơn.

OpenAI nhấn mạnh rằng họ sẽ cần hoàn thành các bước đảm bảo an toàn trước khi phát hành Sora

Sora cũng có thể gặp vấn đề với những chi tiết không gian từ một số câu lệnh nhất định. Họ đưa ra ví dụ về việc mô hình nhầm lẫn giữa trái và phải hoặc gặp khó khăn với quỹ đạo camera chính xác.

OpenAI, công ty đang vướng phải nhiều vụ kiện bản quyền từ các nhà văn và tờ New York Times, cho biết họ sẽ phối hợp với các nhà hoạch định chính sách, nhà giáo dục và nghệ sĩ để nắm bắt những mối quan tâm chung. 

Bạn thấy Sora của OpenAI có "xịn" không?

Bạn đọc có thể tham khảo điện thoại 5G chính hãng với giá ưu đãi tại Thế Giới Di Động để luôn cập nhật tin tức mới về công nghệ, bảo mật, smartphone,... Click vào nút cam dưới đây để xem chi tiết!

SẮM NGAY SMARTPHONE HỖ TRỢ 5G GIÁ TỐT

Theo dõi 24h Công Nghệ trên Google News để cập nhật các thông tin công nghệ mới và hữu ích nhất. Mời các bạn bấm vào nút cam bên dưới.

THEO DÕI TGDĐ TRÊN GOOGLE NEWS

Nguồn: Forbes

Xem thêm:

Biên tập bởi Nguyễn Phan Hoàng Nguyên