Hôm 15.2, OpenAI đã giới thiệu mô hình AI giúp tạo video dài 1 phút dựa trên gợi ý bằng văn bản của người dùng.
OpenAI thông báo: “Sora có thể tạo ra những cảnh phức tạp với nhiều nhân vật, loại chuyển động cụ thể và chi tiết chính xác về chủ đề và hậu cảnh. Chúng tôi đang dạy AI hiểu và mô phỏng thế giới vật chất chuyển động. Mục tiêu là xây dựng mô hình giúp con người giải quyết nhu cầu tương tác trong thế giới thực". Ngoài ra, OpenAI cho biết Sora có thể tạo nhiều cảnh quay trong một video.
Không chỉ tạo video dựa trên gợi ý bằng văn bản, Sora còn có thể tạo hoạt cảnh từ hình ảnh tĩnh.
Một đội ngũ OpenAI đang kiểm tra Sora theo hướng đối địch để đảm bảo rằng nó không tạo ra nội dung có hại hoặc không thích hợp, đồng thời tìm ra các lỗ hổng trong mô hình AI này. OpenAI đang cấp quyền truy cập Sora cho một nhóm chọn lọc "nghệ sĩ hình ảnh, nhà thiết kế và nhà làm phim để nhận phản hồi về cách phát triển mô hình hữu ích nhất với những người làm nghệ thuật sáng tạo". Điều này nhằm đảm bảo các chuyên gia sáng tạo có thể hưởng lợi từ Sora thay vì bị nó thay thế. Hiện chưa rõ khi nào OpenAI phát hành Sora rộng rãi để người dùng và doanh nghiệp sử dụng mô hình tạo video dựa trên văn bản này.
Dù vậy, Sam Altman đã cho một số người cơ hội thấy ý tưởng của họ được thực hiện bằng Sora.
Doanh nhân 38 tuổi người Mỹ viết trên mạng xã hội X ngay sau khi OpenAI công bố sản phẩm mới: “Chúng tôi muốn cho bạn thấy Sora có thể làm gì. Vui lòng trả lời với các chú thích cho video bạn muốn xem và chúng tôi sẽ bắt đầu tạo ra một số video”.
Một người dùng X đã đề nghị Sam Altman tạo video về "hai chú chó săn mồi lông vàng đang làm podcast trên đỉnh núi".
Sam Altman đã chia sẻ kết quả từ Sora và video rất chính xác cũng như chi tiết. Những chú chó có tai nghe, micro và thậm chí cả một tấm chăn dã ngoại màu đỏ để thực hiện podcast.
Một người dùng X khác đề nghị được xem đoạn video trong đó "con vật nửa vịt - nửa rồng bay trong khung cảnh hoàng hôn tuyệt đẹp với một chú chuột hamster mặc đồ phiêu lưu trên lưng".
Sora đã hoàn thành video, dù đôi chân của chuột hamster khá dài và con vịt-rồng dường như đang bay ngược.
Một người dùng X khác đề nghị được xem "những loài động vật khác nhau giống vận động viên đạp xe". Đáp lại, Sora tạo ra video một loạt sinh vật biển, một số có chân giống người, đạp xe trên mặt nước.
Một người nhận xét hài hước: "Con rùa không thể chạm tới bàn đạp".
Một người dùng X đã gợi ý video về "buổi hướng dẫn nấu món gnocchi tự làm do người bà có ảnh hưởng trên mạng xã hội tổ chức trong căn bếp nông thôn mộc mạc ở Tuscany (vùng trung nước Ý)". Video do Sora tạo ra rất ấn tượng.
Gnocchi là loại bánh bao bột dày trong ẩm thực Ý, được làm từ những cục bột nhỏ, chẳng hạn những khối bột được làm từ sự kết hợp đơn giản của bột mì, khoai tây, trứng và muối.
Một trong những video ấn tượng nhất có trên website của OpenAI và được chia sẻ nhiều nhất trên mạng xã hội là cảnh người phụ nữ đang dạo bước trên con phố tràn ngập ánh đèn ở Tokyo (thủ đô Nhật Bản). Gợi ý bằng văn bản là: "Cô ấy mặc áo khoác da màu đen, váy dài màu đỏ, đi bốt đen, đem theo chiếc ví màu đen. Cô đeo kính râm, tô son đỏ. Cô bước đi tự tin và thản nhiên. Đường phố ẩm ướt và phản chiếu, tạo ra hiệu ứng đèn hắt sáng đa màu. Nhiều người đi bộ đi lại".
Việc OpenAI ra mắt Sora diễn ra hơn một năm sau thành công vang dội của chatbot AI ChatGPT, đưa công nghệ này trở thành xu hướng phổ biến và thúc đẩy sự phục hồi của cổ phiếu công nghệ.
Với khả năng tạo video tuyệt đỉnh, Sora gây lo ngại trong bối cảnh deepfake tràn lan trên internet. Đặc biệt, video giả mạo chính trị gia, nghệ sĩ nổi tiếng có thể gây tác động tiêu cực đến xã hội.
OpenAI cho biết đang phát triển các công cụ có thể phân biệt xem video có phải do Sora tạo ra hay không.
Trước khi mở rộng ra cho toàn bộ người dùng phổ thông sử dụng Sora, OpenAI sẽ tìm cách gắn nhãn video AI. Công ty tuyên bố hợp tác với các chuyên gia để đánh giá về khả năng Sora có thể tạo thông tin sai lệch, thù địch và thành kiến.
Năm ngoái, gã khổng lồ truyền thông xã hội Meta Platforms nâng cấp mô hình tạo hình ảnh Emu để thêm hai tính năng dựa trên AI có thể chỉnh sửa và tạo video từ lời nhắc văn bản.
Công ty mẹ của Facebook đang cố gắng cạnh tranh với Microsoft, Google và Amazon trong lĩnh vực AI tạo nội dung đang biến đổi nhanh chóng.
Deepfake là một từ ghép của deep learning (học sâu) và fake (giả mạo), thường chỉ các phương pháp và công nghệ sử dụng AI và học sâu để tạo ra hoặc chỉnh sửa nội dung video và âm thanh sao cho giống người thật. Cụ thể, deepfake thường được sử dụng để thay đổi gương mặt và giọng điệu của các người nổi tiếng trong video hoặc tạo ra video giả mạo họ trong các tình huống hoặc hành động mà họ không thực sự tham gia.
Deepfake đã trở thành một vấn đề nghiêm trọng trong thế giới truyền thông và giải trí, vì được sử dụng để tạo ra thông tin sai lệch, lừa dối người xem hoặc xâm phạm quyền riêng tư của người khác. Song cũng có các ứng dụng sáng tạo của deepfake trong lĩnh vực điện ảnh, video truyền hình và giảng dạy.