Mô hình AI mới của Tencent giúp biến hình ảnh thành video bằng gợi ý đơn giản

Sơn Vân18/03/2024 11:00
Mô hình AI mới của Tencent giúp biến hình ảnh thành video bằng gợi ý đơn giản

Gã khổng lồ công nghệ Tencent hôm 15.3 đã giới thiệu mô hình trí tuệ nhân tạo (AI) Follow-Your-Click hỗ trợ chuyển đổi hình ảnh thành video với sự cộng tác của các đối tác học thuật.

Đã được Tencent (Trung Quốc) đưa lên trên nền tảng GitHub của Microsoft, Follow-Your-Click cho phép người dùng người dùng nhấp vào các phần nhất định trên hình ảnh kèm gợi ý bằng văn bản đơn giản rằng muốn nó di chuyển như thế nào, sau đó ảnh tĩnh sẽ chuyển đổi thành đoạn video hoạt hình ngắn.

Dự án này là sự hợp tác giữa nhóm Hunyuan của Tencent, Đại học Khoa học và Công nghệ Hồng Kông cùng Đại học Thanh Hoa (một trong hai trường đại học hàng đầu của Trung Quốc ở thủ đô Bắc Kinh).

GitHub là nền tảng dành cho việc quản lý mã nguồn mở và dự án phần mềm. Nó cung cấp các công cụ để các nhà phát triển phần mềm có thể làm việc cùng nhau trong việc phát triển, quản lý và theo dõi mã nguồn của các dự án.

GitHub cho phép người dùng lưu trữ mã nguồn của họ trên các kho lưu trữ, theo dõi các thay đổi, quản lý phiên bản, tạo ra các nhánh để thử nghiệm tính năng mới và hợp nhất các thay đổi từ nhiều người dùng khác nhau vào dự án chung. Đây là một trong những nền tảng phổ biến nhất, quan trọng nhất cho cộng đồng phát triển phần mềm mã nguồn mở và dự án phần mềm kỹ thuật mở.

Tencent cho biết sẽ phát hành mã nguồn đầy đủ của Follow-Your-Click vào tháng 4, nhưng bản demo đã có sẵn trên GitHub. Các nhà nghiên cứu đã trình diễn một số khả năng của Follow-Your-Click ở đó. Một kết quả cho thấy hình ảnh con chim với gợi ý “vỗ cánh” đã biến thành file MP4 ngắn về con chim có màu sắc cầu vồng vẫy một bên cánh. Hình ảnh khác về cô gái đứng ngoài trời với gợi ý một từ đơn giản là “bão” đã biến thành hình ảnh động với tia chớp lóe lên ở phía sau.

follow-your-click-mo-hinh-ai-moi-cua-tencent-giup-bien-hinh-anh-thanh-video-bang-goi-y-don-gian.jpg
Một số video và ảnh động do Follow-Your-Click tạo ra có trên GitHub

Theo bài báo học thuật của các nhà nghiên cứu từ ba tổ chức nêu trên, Follow-Your-Click được tạo ra nhằm mục đích giải quyết các vấn đề mà các mô hình chuyển hình ảnh thành video khác trên thị trường gặp phải là có xu hướng di chuyển toàn bộ cảnh thay vì tập trung vào các đối tượng cụ thể trong ảnh. Các mô hình AI khác yêu cầu người dùng đưa ra những mô tả chi tiết về cách thức và nơi họ muốn hình ảnh di chuyển.

Những nhà nghiên cứu viết trong bài đăng trên arXiv (kho lưu trữ bài báo khoa học trực tuyến): “Khung làm việc của chúng tôi có khả năng kiểm soát người dùng đơn giản hơn nhưng chính xác hơn và hiệu suất tạo ra tốt hơn so với các phương pháp trước đây”.

Việc tạo video từ văn bản đã trở thành một chủ đề nóng kể từ khi OpenAI giới thiệu Sora vào ngày 15.2. Sora có thể tạo video tối đa 1 phút với hình ảnh ấn tượng, chân thực dựa trên gợi ý từ người dùng. Mô hình AI này tạo ra các cảnh phức tạp với nhiều nhân vật, các kiểu chuyển động cụ thể cũng như chi tiết chính xác về chủ đề và hậu cảnh dựa trên những gì người dùng yêu cầu.

Trong lĩnh vực chuyển văn bản và hình ảnh thành video, Pika Labs có trụ sở tại Thung lũng Silicon, do Guo Wenjing (chuyên gia người Trung Quốc) tại Đại học Stanford (Mỹ) đồng sáng lập, là ngôi sao đang lên khác. Công ty khởi nghiệp này đã huy động được 55 triệu USD trong các vòng vốn hạt giống và vốn Series A từ một số tên tuổi lớn nhất trong ngành công nghệ.

Vào tháng 1, Tencent đã trình làng công cụ chỉnh sửa và tạo video nguồn mở VideoCrafter2, có khả năng tạo video từ văn bản. Đây là phiên bản cập nhật của VideoCrafter1, được phát hành vào tháng 10.2023 nhưng chỉ giới hạn ở các video chỉ 2 giây.

Gần như cùng thời gian đó, ByteDance đã phát hành mô hình chuyển văn bản thành video MagicVideo-V2. Theo trang GitHub của dự án, MagicVideo-V2 kết hợp “mô hình chuyển văn bản thành hình ảnh, trình tạo chuyển động video, mô đun nhúng hình ảnh tham chiếu và mô đun nội suy khung vào một đường dẫn tạo video từ đầu đến cuối”.

ModelScope, đơn vị của Damo Vision Intelligence Lab thuộc Alibaba, cũng giới thiệu mô hình chuyển văn bản thành video nhưng hiện chỉ hỗ trợ đầu vào tiếng Anh và đầu ra video bị giới hạn trong 2 giây.

Alibaba mới đây tung ra công cụ AI tạo video chân dung có tên EMO (Emotive Portrait Alive), hỗ trợ biến hình ảnh và gợi ý về âm thanh thành video người hát và nói chuyện.

Được nghiên cứu bởi Viện Điện toán Thông minh (IIC) của Alibaba cùng các tác giả LinRui Tian, Qi Wang, Bang Zhang và LieFeng Bo, EMO có khả năng "tạo biểu cảm kèm âm thanh từ nhân vật trong ảnh". Nói cách khác, EMO có thể biến một hình ảnh tham chiếu tĩnh và âm thanh giọng nói thành video người có thể nói, hát với biểu cảm tự nhiên.

So với các AI trước đây chỉ làm biến đổi miệng và một phần khuôn mặt, EMO có thể tạo nét mặt, tư thế, di chuyển phần lông mày, nhíu mắt hay thậm chí lắc lư theo điệu nhạc. Đặc biệt, phần miệng được AI thể hiện tự nhiên, đồng bộ môi chính xác.

Trong một số video do Alibaba công bố, hình ảnh sẽ biến thành video và hát các bài được nhập vào nhanh chóng. Ngoài tiếng Anh và tiếng Trung, EMO cũng hỗ trợ nhiều ngôn ngữ khác. Alibaba cho biết đã huấn luyện AI với lượng lớn dữ liệu về hình ảnh, âm thanh và video nhằm tạo biểu cảm khuôn mặt một cách chân thực thông qua mô hình khuếch tán riêng có tên Audio2Video.

"Chúng tôi muốn giải quyết thách thức lớn hiện nay là tính chân thực và tính biểu cảm trong việc tạo video từ hình ảnh và âm thanh bằng cách tập trung vào mối liên hệ cũng như sắc thái giữa tín hiệu âm thanh và chuyển động trên khuôn mặt. Phương pháp được áp dụng là tổng hợp, bỏ qua liên kết mô hình 3D trung gian hoặc các điểm mốc trên khuôn mặt, chuyển tiếp khung hình liền mạch và bảo toàn tính nhất quán trong video, mang lại ảnh động có tính biểu cảm cao và sống động như thật", đại diện nhóm giải thích.

Hiện dữ liệu của EMO đã được công bố trên Github, còn các tài liệu nghiên cứu được đăng trên ArXiv. Alibaba chưa tiết lộ khi nào sẽ phát hành công khai EMO.

Gần đây, các giáo sư từ Đại học Bắc Kinh và Rabbitpre (công ty AI có trụ sở tại thành phố Thâm Quyến, Trung Quốc) đã thực hiện một nỗ lực mới để phát triển phiên bản Trung Quốc của Sora.

Nhóm các nhà nghiên cứu này đã cùng nhau đưa ra kế hoạch Open-Sora thông qua một trang trên nền tảng lưu trữ mã nguồn GitHub, với sứ mệnh “tái tạo mô hình tạo video từ văn bản của OpenAI”.

Kế hoạch Open-Sora nhằm mục đích tái tạo một phiên bản “đơn giản và có thể mở rộng” của Sora với sự trợ giúp từ cộng đồng nguồn mở.

Theo trang GitHub của dự án này, nhóm nghiên cứu đã phát triển một khung công việc gồm 3 phần và trình chiếu 4 bản demo của các video được tái tạo ở các độ phân giải và tỷ lệ khung hình khác nhau, từ 3 giây đến 24 giây.

Các nhiệm vụ tiếp theo của nhóm gồm tinh chỉnh công nghệ để tạo ra độ phân giải cao hơn cũng như đào tạo với nhiều dữ liệu hơn và nhiều bộ xử lý đồ họa (GPU) hơn.

Kế hoạch Open-Sora được đưa ra bởi Rabbitpre AIGC Joint Lab (sự hợp tác giữa Trường Cao học Thâm Quyến của Đại học Bắc Kinh và Rabbitpre), thành lập vào tháng 6.2023. Rabbitpre AIGC Joint Lab chuyên nghiên cứu trong lĩnh vực nội dung do AI sản xuất.

Dự án Open-Sora liệt kê 13 thành viên là nhóm ban đầu, gồm cả trợ lý Giáo sư Yuan Li từ khoa Kỹ thuật Điện và Máy tính của Đại học Bắc Kinh và Giáo sư Tian Yonghong từ Trường Khoa học Máy tính. Danh sách này còn có Dong Shaoling (người sáng lập kiêm Giám đốc điều hành Rabbitpre) và Chu Xing (Giám đốc công nghệ Rabbitpre).

 


Gửi bình luận
(0) Bình luận
1

Gần 200 tựa game Việt phát hành toàn cầu gắn hình quốc kỳ, nhuộm đỏ không gian mạng

Các nền tảng mạng xã hội và 30 công ty game hàng đầu Việt Nam tham gia chiến dịch Tự hào Việt Nam - Nhuộm đỏ không gian mạng chào mừng 80 năm Quốc khánh.
2

Mai Siêu Phong và Lý Mạc Sầu, ai mới là cao thủ?

Mai Siêu Phong và Lý Mạc Sầu, hai nữ ma đầu nổi tiếng trong thế giới võ hiệp Kim Dung, liệu ai hơn ai về võ công?
4

Tại sao Kiều Phong lại là người yếu nhất trong số các cao thủ tứ tuyệt của Thiên Long?

Bài viết phân tích sức mạnh của các cao thủ trong Thiên Long Bát Bộ, đặc biệt là tứ tuyệt, và đặt ra nghi vấn về vị trí của Kiều Phong. Liệu "chiến thần" Kiều Phong có thực sự xứng đáng với danh hiệu này khi so sánh nội lực với các cao thủ khác?
5

Sản xuất búp bê giá 260 triệu đồng giống trẻ em thật đến mức khó phân biệt!

"Tôi đã trải qua nhiều biến cố và những con búp bê thực sự đã giúp ích rất nhiều cho sức khỏe tinh thần của tôi", cô gái 23 tuổi tâm sự.

Top 10 cao thủ của Anh hùng xạ điêu: Quách Tĩnh bét bảng, ai đứng đầu?

Cao thủ đứng ở vị trí thứ nhất hóa ra là người này?

Sát nhân dị nhất của Kim Dung khiến Đào Cốc Lục Tiên sợ một phép, chết vì lý do lãng xẹt

Sát nhân này tuy xuất hiện thoáng qua nhưng vẫn khiến nhiều fan nguyên tác nhớ mãi nhờ tính tình cổ quái.

Cao thủ "lười biếng" của Kim Dung: Sở hữu 7 tuyệt kỹ vô địch nhưng không luyện tập vì lý do này

Cao thủ này có nhiều cơ hội để trở thành người đứng đầu thiên hạ nhưng lại từ bỏ.

Bên trong ‘trang trại cày lượt view’ trên các mạng xã hội

Đài CNN cho biết năm ngoái, nhiếp ảnh gia người Anh Jack Latham dành ra 1 tháng ở Hà Nội để ghi lại hoạt động của 5 cơ sở chuyên giúp tăng lượt truy cập và mức độ tương tác trên mạng xã hội.

Tiếng kêu của một loài còn khiến muôn loài ở châu Phi sợ hãi hơn sư tử

Trong hơn 10.000 bản ghi âm về động vật hoang dã trên thảo nguyên châu Phi, 95% các loài được quan sát phản ứng với mức độ kinh hoàng hơn nhiều trước âm thanh của một loài.

4 đại cao thủ kỳ lạ của Kim Dung: Được coi là đứng đầu thiên hạ nhưng thất bại lãng xẹt

Những cao thủ này được công nhận là có võ công mạnh nhất thời của họ.

Rơi từ trên cao trong giấc mơ: Mối liên hệ bí mật giữa giấc ngủ và sự tiến hóa của loài người

Trong giấc mơ, bạn như thể rơi từ trên cao xuống và tỉnh dậy với khuôn mặt đầy kinh hãi. Tuy nhiên, loại giấc mơ này không chỉ là ảo giác đơn thuần, đằng sau nó còn có mối liên hệ bí mật với quá trình tiến hóa của loài người.

Nếu có 1 cậu con trai thuộc Gen Alpha, bố mẹ nên nuôi dạy con thế nào?

Kỹ năng - Mạn Ngọc - 03/09/2025 11:00
Đây là thế hệ “công dân số” thực thụ, thông minh, nhạy bén nhưng cũng dễ chịu tác động từ môi trường xung quanh. Vì vậy, bố mẹ cần định hướng thật khéo léo để con phát triển toàn diện.

Khoảnh khắc Mỹ Tâm đặt tay lên ngực áo, hát về Tổ quốc ở đại lễ 2/9 gây sốt

Truyền cảm hứng - Quỳnh Tâm - 03/09/2025 10:24
Giữa Quảng trường Ba Đình lịch sử, Mỹ Tâm đặt tay lên ngực áo, cất vang tiếng hát đầy tự hào. Khoảnh khắc này nhanh chóng lan tỏa trong đại lễ Quốc khánh 2/9.

Cô gái 9x miệt mài 6 năm lặn lội sông suối tìm cách khôi phục nghề cổ 500 năm

Phong cách sống - Diệp Anh - 03/09/2025 10:00
Từ bỏ cuộc sống công sở, không kết hôn cũng chẳng giao thiệp nhiều, Giang Hân (sinh năm 1992) dấn thân vào hành trình phục dựng những tuyệt tác gốm sứ cổ.

Thuyết Mặc kệ họ - Liệu có phải là chìa khóa đến bình yên tuyệt đối trong thế giới đầy áp lực?

Từ sách - Phim - Minh Hằng - 03/09/2025 09:00
Mỗi ngày mạng xã hội không ngừng "nạp" vào tâm trí bạn những hình ảnh về sự hoàn hảo, thành công, và hạnh phúc. Để rồi bạn thường xuyên bị cuốn vào một vòng xoáy so sánh, lo âu và áp lực phải đáp ứng những kỳ vọng từ bên ngoài...

X6 Điệp viên hoàn hảo - Tình yêu và giấc mơ của một nhà báo, tình báo huyền thoại

Từ sách - Phim - Thu An - 03/09/2025 08:00
“X6 Điệp viên hoàn hảo”- thiếu tướng tình báo Phạm Xuân Ẩn - có lẽ không quá xa lạ trong sự hiểu biết của nhiều người. Nhưng chắc rằng, chưa ai có thể hiểu được tận cùng con người và cuộc đời hoạt động tình báo huyền thoại của ông.

Đan Mạch miễn thuế sách vì 1/4 học sinh 15 tuổi ‘yếu’ khả năng đọc hiểu văn bản đơn giản

Suy ngẫm - Băng Băng - 02/09/2025 13:00
Từng là nước áp mức thuế VAT với sách cao nhất Châu Âu, Đan Mạch đang phải thay đổi vì khủng hoảng đọc ở giới trẻ.

Tổng Bí thư Tô Lâm: Không gì có thể ngăn chúng ta vươn tới hòa bình, thịnh vượng

Suy ngẫm - NLĐ - 02/09/2025 12:19
Tại Lễ kỷ niệm 80 năm Quốc khánh, Tổng Bí thư Tô Lâm khẳng định không gì có thể ngăn chúng ta vươn tới hòa bình, thịnh vượng, dân tộc ta trường tồn, phát triển

Tại sao người lớn trong Doraemon luôn mờ nhạt? - Tiết lộ của tác giả có thể sẽ khiến bạn bất ngờ

Điện ảnh - Trang Vũ - 02/09/2025 12:00
Không chỉ là bộ truyện của trẻ con, Doraemon còn mang nhiều ý nghĩa sâu xa khác.

AI thay đổi cách con người lên kế hoạch du lịch như thế nào?

Kỹ năng - Nhật Hạ - 02/09/2025 11:00
Ngành du lịch toàn cầu đang chứng kiến một sự chuyển mình mạnh mẽ, nơi công nghệ không chỉ là công cụ hỗ trợ mà định hình hành trình khám phá thế giới của mỗi du khách.

Tiến sĩ Mai Liêm Trực và 'cái vỗ vai' và quyết định lịch sử đưa Internet vào Việt Nam

Truyền cảm hứng - Nam Đoàn, Thế Anh - Dân Trí - 02/09/2025 10:00
Việc chính thức kết nối Internet toàn cầu vào năm 1997 được xem là một trong những dấu mốc quan trọng nhất trong quá trình đổi mới và hội nhập quốc tế của Việt Nam.

X6 Điệp viên hoàn hảo – Giải mã những bí ẩn về người hùng thầm lặng Phạm Xuân Ẩn

Từ sách - Phim - Nguyễn Hoa - Bookademy - 02/09/2025 09:00
Trong dòng chảy của lịch sử Việt Nam, có những câu chuyện, những con người mãi mãi trở thành huyền thoại, định hình nên bản sắc và tinh thần của dân tộc. Một trong số đó là Phạm Xuân Ẩn, điệp viên hoàn hảo mang mật danh X6.

Chân trần Chí thép – Khi sức mạnh không chỉ đến từ vũ khí tối tân

Từ sách - Phim - Quìn - 02/09/2025 08:00
Có những cuốn sách không chỉ để đọc, mà còn để sống cùng tinh thần mà nó khơi gợi. Chân Trần, Chí Thép của James G. Zumwalt chính là một tác phẩm như vậy.

Để trở thành người mẹ tốt, hi sinh không phải là cách duy nhất để yêu thương

Phong cách sống - Tích Thành - 01/09/2025 13:00
Trong hành trình làm mẹ, nhiều phụ nữ đánh mất chính mình vì nghĩ rằng hi sinh là điều hiển nhiên. Nhưng sự thật là: Mẹ hạnh phúc thì gia đình mới hạnh phúc. Và điều đó bắt đầu từ việc biết giữ lại chính mình.

Trương Tam Phong là thiên tài, sao lại đạt thành tựu ở tuổi 70, muộn hơn Trương Vô Kỵ 50 năm?

Thư giãn - Nguyệt Phạm - 01/09/2025 12:00
Có bí ẩn nào đằng sau việc Trương Tam Phong đến 70 tuổi mới đại thành võ công?

Vì sao không nên nhận mã OTP qua tin nhắn?

Kỹ năng - Đại Phú - 01/09/2025 11:00
Chuyên gia an ninh mạng cho rằng cần dừng nhận OTP qua tin nhắn SMS.
HẠT GIỐNG TÂM HỒN
2019 Bản quyền thuộc về hatgiongtamhon.com.vn. Phát triển bởi ONECMS
Thứ 4, 03/09/2025