OpenAI giới thiệu GPT-4o xử lý được cả giọng nói và hình ảnh cho người dùng miễn phí

Nguyễn Hải15/05/2024 13:00

Theo OpenAI, mô hình AI mới có thể xử lý xuyên suốt cả giọng nói, hình ảnh và văn bản theo thời gian thực.

GPT-4o có khả năng nói chuyện và trả lời theo thời gian thực như phim khoa học viễn tưởng

Dù GPT-4 đang là mô hình AI vận hành cho ChatGPT Plus – phiên bản trả phí cao cấp hơn của ChatGPT – nhưng chính Sam Altman, CEO OpenAI vẫn thường cho biết mình "xấu hổ" về trình độ của mô hình này và gọi đây là "mô hình ngốc nghếch nhất … mà mọi người vẫn đang phải sử dụng rất nhiều."

Và trong sự kiện giới thiệu sản phẩm của mình tối qua, OpenAI đã cho thấy quyết tâm sửa chữa lại điều này khi ra mắt một mô hình AI tạo sinh cao cấp mới có tên GPT-4o, với "o" viết tắt cho "omni" (toàn năng) cho thấy các khả năng xử lý mới của mô hình này bao gồm cả văn bản, hội thoại và video.

GPT-4o sẽ được triển khai dần dần trên các sản phẩm dành cho nhà phát triển và người dùng của công ty trong vài tuần tới. Trong khi đó, người dùng ChatGPT Plus sẽ được tiếp cận với mô hình mới này ngay hôm nay.

OpenAI giới thiệu mô hình GPT-4o mới: chatbot AI toàn năng xử lý được cả giọng nói và hình ảnh, người dùng miễn phí cũng được sử dụng- Ảnh 1. — Không chỉ giao tiếp bằng văn bản, với GPT-4o, ChatGPT có thể tiếp nhận đầu vào bằng nhiều phương thức khác nhau

Kỹ sư trưởng Mira Murati của OpenAI cho biết GPT-4o cung cấp trí thông minh "tương đương GPT-4" nhưng nâng cao khả năng của GPT-4 trên nhiều phương thức và phương tiện truyền thông.

"GPT-4o suy luận xuyên suốt giọng nói, văn bản và hình ảnh," CTO Murati cho biết trong một buổi trình chiếu trực tuyến tại văn phòng OpenAI ở San Francisco. "Và điều này vô cùng quan trọng, bởi vì chúng ta đang nhìn về tương lai của sự tương tác giữa chúng ta và máy móc."

Trong khi GPT-4 Turbo, mô hình "tiên tiến nhất" trước đây của OpenAI, được đào tạo để có thể phân tích hình ảnh, văn bản để hoàn thành các nhiệm vụ như trích xuất văn bản từ hình ảnh hoặc thậm chí mô tả nội dung của những hình ảnh đó, GPT-4o còn có thể thêm cả giọng nói.

Điều này cho phép ChatGPT làm gì?

GPT-4o nâng cao đáng kể trải nghiệm trên trợ lý trò chuyện ChatGPT của OpenAI. Nền tảng này đã lâu nay có chế độ giọng nói chuyển văn bản thành giọng nói, nhưng GPT-4o tăng cường khả năng này, cho phép người dùng tương tác với ChatGPT giống như với một trợ lý thực sự.

Ví dụ, người dùng có thể hỏi ChatGPT được tăng cường bởi GPT-4o một câu hỏi và gián đoạn ChatGPT trong khi nó đang trả lời. OpenAI cho biết, GPT-4o cung cấp khả năng phản hồi "thời gian thực", và thậm chí có thể nhận ra những khác biệt nhỏ trong giọng nói của người dùng, để tạo ra các giọng nói khác nhau với "nhiều phong cách biểu cảm khác nhau" (bao gồm cả hát).

OpenAI giới thiệu mô hình GPT-4o mới: chatbot AI toàn năng xử lý được cả giọng nói và hình ảnh, người dùng miễn phí cũng được sử dụng- Ảnh 2. — Khả năng nhận diện và phân tích hình ảnh của ChatGPT trên mô hình mới được cải tiến vượt trội

GPT-4o cũng nâng cấp khả năng xử lý hình ảnh của ChatGPT. Với một bức ảnh - hoặc màn hình máy tính - ChatGPT hiện có thể nhanh chóng trả lời các câu hỏi liên quan, từ các chủ đề như "Có gì đang diễn ra trong đoạn mã này?" đến "Nhãn hiệu áo sơ mi này là gì?".

Các tính năng này sẽ tiếp tục phát triển trong tương lai, Murati nói. Trong khi hiện tại GPT-4o có thể nhìn vào một bức ảnh menu bằng một ngôn ngữ khác và dịch nó, trong tương lai, mô hình có thể cho phép ChatGPT "xem" một trận đấu thể thao trực tiếp và giải thích luật chơi cho bạn.

OpenAI cũng khẳng định, GPT-4o sẽ hỗ trợ đa ngôn ngữ với hiệu suất nâng cao cho khoảng 50 ngôn ngữ. Và trên API của OpenAI và Azure OpenAI Service của Microsoft, GPT-4o nhanh gấp đôi, giá rẻ hơn một nửa và có giới hạn tỷ lệ cao hơn so với GPT-4 Turbo, công ty cho biết.

Hiện tại, giọng nói chưa phải là một phần của GPT-4o API cho tất cả khách hàng. OpenAI, với lý do rủi ro lạm dụng, cho biết họ dự định sẽ ra mắt hỗ trợ cho khả năng xử lý âm thanh mới của GPT-4o cho "một nhóm đối tác đáng tin cậy nhỏ" trong vài tuần tới. Nhưng nếu khả năng giao tiếp đa phương tiện mới thực sự hiệu quả như tuyên bố của OpenAI, có lẽ đã đến lúc người dùng không cần đến bàn phím để giao tiếp với máy móc nữa.

Xuất hiện trên cả phiên bản miễn phí

GPT-4o có sẵn trên gói miễn phí của ChatGPT từ hôm nay và cho người đăng ký gói ChatGPT Plus và Đội ngũ trả phí của OpenAI với giới hạn tin nhắn "cao gấp 5 lần". (OpenAI lưu ý rằng ChatGPT sẽ tự động chuyển sang GPT-3.5, một mô hình cũ hơn và kém năng lực hơn, khi người dùng chạm đến giới hạn tỷ lệ.) Trải nghiệm ChatGPT giọng nói được nâng cấp nhờ GPT-4o sẽ ra mắt phiên bản alpha cho người dùng Plus trong tháng tới, cùng với các tùy chọn dành cho doanh nghiệp.

OpenAI giới thiệu mô hình GPT-4o mới: chatbot AI toàn năng xử lý được cả giọng nói và hình ảnh, người dùng miễn phí cũng được sử dụng- Ảnh 3. — ChatGPT hiện đã có phiên bản desktop dành cho MacOS, giúp người dùng làm việc liền mạch hơn

Ngoài ra người dùng ChatGPT phiên bản miễn phí cũng được tiếp cận cửa hàng GPT Store, cửa hàng các công cụ và chatbot bên thứ ba được xây dựng trên mô hình AI của OpenAI – một tính năng trước đây chỉ dành cho người dùng trả phí.

OpenAI giới thiệu mô hình GPT-4o mới: chatbot AI toàn năng xử lý được cả giọng nói và hình ảnh, người dùng miễn phí cũng được sử dụng- Ảnh 4. — Phiên bản dành cho desktop cũng giúp lập trình viên làm việc tiện lợi hơn

Trong một tin liên quan, OpenAI thông báo rằng họ đang làm mới giao diện web của ChatGPT với màn hình chính "hơi hướng đối thoại" và bố cục tin nhắn mới, cùng với phiên bản desktop của ChatGPT cho MacOS giúp người dùng đặt câu hỏi qua phím tắt hoặc chụp và thảo luận về ảnh chụp màn hình. Phiên bản cho Windows sẽ ra mắt trong năm nay.

Trước khi ra mắt GPT-4o, nhiều báo cáo dự đoán rằng OpenAI sẽ công bố một công cụ tìm kiếm AI để cạnh tranh với Google và Perplexity, nhưng rõ ràng OpenAI còn đang làm được nhiều hơn thế. Điều thú vị hơn nữa là việc OpenAI ra mắt mô hình mới được diễn ra ngay trước sự kiện nhà phát triển của Google I/O một ngày, nơi nhiều khả năng Google sẽ công bố các sản phẩm AI mới của mình.

Chia sẻ facebook Chia sẻ google

Gửi bình luận

(0) Bình luận

Xếp theo: Thời gian | Số người thích

Những cuốn sách giúp bạn chăm sóc sức khỏe tinh thần từ gốc rễ

Tủ sách - Quìn - 22/08/2025 09:00

Đọc những cuốn sách dưới đây, bạn sẽ thấy việc chăm sóc tinh thần không còn là khái niệm xa xỉ, mà là con đường thực tế để sống cân bằng, bền vững trong một thế giới nhiều biến động.

Bà mẹ ba con làm hoa từ bánh cupcake gây sốt khắp thế giới

Phong cách sống - Hoàng Hà - 22/08/2025 08:00

Dù không qua bất kỳ trường lớp đào tạo nào, thế nhưng với lòng đam mê ẩm thực và nghệ thuật, người mẹ ba con vẫn tạo nên bó hoa bánh cupcake tuyệt đẹp.

Kế hoạch dự án phần mềm

Blog GS John VU - GS John Vu - 21/08/2025 13:00

Theo nhiều nghiên cứu, phần lớn những người quản lí phần mềm đã KHÔNg nhận được đào tạo về quản lí dự án CHÍNH THỨC và nhiều giáo trình quản lí dự án tại đại học KHÔNG thích hợp do thiếu “khía cạnh thực hành”.

Xem Sex Education tôi giật mình, nếu ông bố nào cũng dạy theo kiểu này thì con cái mệt mỏi

Điện ảnh - Thanh Hương - 21/08/2025 12:00

Tôi rùng mình nhớ lại tuổi 15 của bản thân và nhận ra mình đã sai.

3 thông báo Zalo không bao giờ được bỏ qua, coi chừng tài khoản Zalo bị hack

Kỹ năng - KV - 21/08/2025 11:00

Kẻ gian vẫn có thể chiếm đoạt tài khoản nếu bạn lơ là trước 3 dạng thông báo quan trọng dưới đây.

7 câu nói độc hại mà người EQ thấp hay buông ra với bạn bè khiến họ chẳng có nổi người bạn thân

Suy ngẫm - Ứng Hà Chi - 21/08/2025 10:00

Những người có EQ (trí tuệ cảm xúc) thấp thường không nhận ra rằng lời nói của họ có thể gây tổn thương hoặc tạo cảm giác khó chịu cho người khác.

Thuyết Mặc Kệ Họ - Lý do thật sự khiến bạn luôn kiệt sức

Từ sách - Phim - TĐ - 21/08/2025 09:00

Trong cuốn sách "Thuyết Mặc Kệ Họ" (The Let Them Theory), tác giả Mel Robbins và Sawyer Robbins đã chỉ ra rằng bạn không thể kiểm soát hành vi của những người khác và căng thẳng sẽ chỉ làm giảm đi sức mạnh.

Mỹ nhân gen Z hút triệu view với cảnh vác tải cám phăng phăng nuôi 200 con lợn

Phong cách sống - Nhật Thủy - 21/08/2025 08:00

Clip cô gái mảnh mai xinh xắn phăng phăng vác tải cám đổ cho đàn lợn ăn bất ngờ thành hiện tượng mạng với hàng triệu lượt xem chỉ sau 24 giờ.

Lời khuyên khác cho người quản lí dự án

Blog GS John VU - GS John Vu - 20/08/2025 13:00

Người quản lí dự án giỏi phải có cả kĩ năng kĩ thuật và kĩ năng trao đổi.

Xem "Sex Education", tôi gửi con gái tin nhắn và nhận được kỳ tích sau 2 tháng

Điện ảnh - Mỹ Hạnh - 20/08/2025 12:00

Bây giờ mỗi khi nhắc lại chuyện cũ, con gái vẫn thường cảm ơn tôi vì tin nhắn tối hôm đó.

Vì sao không nên dùng Face ID để mở khóa điện thoại?

Kỹ năng - KV - 20/08/2025 11:00

Mở khóa bằng khuôn mặt đã trở thành một phản xạ của nhiều người dùng iPhone. Nhưng sẽ ra sao nếu kẻ xấu không cần bẻ khóa, mà chỉ cần ép chính bạn dùng chìa khóa đó để chống lại mình?

'Câu hỏi về thế giới bên kia' từ góc độ khoa học: Sự va chạm giữa thực nghiệm và ảo tưởng

Suy ngẫm - Đức Khương - 20/08/2025 10:00

Câu hỏi "liệu có thế giới bên kia sau khi chết không" như một bí ẩn lớn mà con người luôn tìm cách giải đáp. Tuy nhiên, do vượt ra ngoài phạm vi quan sát trực tiếp và kiểm chứng thực nghiệm, khoa học truyền thống vẫn chưa thể đưa ra câu trả lời thuyết phục.

Xem thêm