OpenAI giới thiệu GPT-4o xử lý được cả giọng nói và hình ảnh cho người dùng miễn phí

Nguyễn Hải15/05/2024 13:00
OpenAI giới thiệu GPT-4o xử lý được cả giọng nói và hình ảnh cho người dùng miễn phí

Theo OpenAI, mô hình AI mới có thể xử lý xuyên suốt cả giọng nói, hình ảnh và văn bản theo thời gian thực.

Dù GPT-4 đang là mô hình AI vận hành cho ChatGPT Plus – phiên bản trả phí cao cấp hơn của ChatGPT – nhưng chính Sam Altman, CEO OpenAI vẫn thường cho biết mình "xấu hổ" về trình độ của mô hình này và gọi đây là "mô hình ngốc nghếch nhất … mà mọi người vẫn đang phải sử dụng rất nhiều."

Và trong sự kiện giới thiệu sản phẩm của mình tối qua, OpenAI đã cho thấy quyết tâm sửa chữa lại điều này khi ra mắt một mô hình AI tạo sinh cao cấp mới có tên GPT-4o, với "o" viết tắt cho "omni" (toàn năng) cho thấy các khả năng xử lý mới của mô hình này bao gồm cả văn bản, hội thoại và video.

GPT-4o sẽ được triển khai dần dần trên các sản phẩm dành cho nhà phát triển và người dùng của công ty trong vài tuần tới. Trong khi đó, người dùng ChatGPT Plus sẽ được tiếp cận với mô hình mới này ngay hôm nay.

OpenAI giới thiệu mô hình GPT-4o mới: chatbot AI toàn năng xử lý được cả giọng nói và hình ảnh, người dùng miễn phí cũng được sử dụng- Ảnh 1.

Không chỉ giao tiếp bằng văn bản, với GPT-4o, ChatGPT có thể tiếp nhận đầu vào bằng nhiều phương thức khác nhau

Kỹ sư trưởng Mira Murati của OpenAI cho biết GPT-4o cung cấp trí thông minh "tương đương GPT-4" nhưng nâng cao khả năng của GPT-4 trên nhiều phương thức và phương tiện truyền thông.

"GPT-4o suy luận xuyên suốt giọng nói, văn bản và hình ảnh," CTO Murati cho biết trong một buổi trình chiếu trực tuyến tại văn phòng OpenAI ở San Francisco. "Và điều này vô cùng quan trọng, bởi vì chúng ta đang nhìn về tương lai của sự tương tác giữa chúng ta và máy móc."

Trong khi GPT-4 Turbo, mô hình "tiên tiến nhất" trước đây của OpenAI, được đào tạo để có thể phân tích hình ảnh, văn bản để hoàn thành các nhiệm vụ như trích xuất văn bản từ hình ảnh hoặc thậm chí mô tả nội dung của những hình ảnh đó, GPT-4o còn có thể thêm cả giọng nói.

Điều này cho phép ChatGPT làm gì?

GPT-4o nâng cao đáng kể trải nghiệm trên trợ lý trò chuyện ChatGPT của OpenAI. Nền tảng này đã lâu nay có chế độ giọng nói chuyển văn bản thành giọng nói, nhưng GPT-4o tăng cường khả năng này, cho phép người dùng tương tác với ChatGPT giống như với một trợ lý thực sự.

Ví dụ, người dùng có thể hỏi ChatGPT được tăng cường bởi GPT-4o một câu hỏi và gián đoạn ChatGPT trong khi nó đang trả lời. OpenAI cho biết, GPT-4o cung cấp khả năng phản hồi "thời gian thực", và thậm chí có thể nhận ra những khác biệt nhỏ trong giọng nói của người dùng, để tạo ra các giọng nói khác nhau với "nhiều phong cách biểu cảm khác nhau" (bao gồm cả hát).

OpenAI giới thiệu mô hình GPT-4o mới: chatbot AI toàn năng xử lý được cả giọng nói và hình ảnh, người dùng miễn phí cũng được sử dụng- Ảnh 2.

Khả năng nhận diện và phân tích hình ảnh của ChatGPT trên mô hình mới được cải tiến vượt trội

GPT-4o cũng nâng cấp khả năng xử lý hình ảnh của ChatGPT. Với một bức ảnh - hoặc màn hình máy tính - ChatGPT hiện có thể nhanh chóng trả lời các câu hỏi liên quan, từ các chủ đề như "Có gì đang diễn ra trong đoạn mã này?" đến "Nhãn hiệu áo sơ mi này là gì?".

Các tính năng này sẽ tiếp tục phát triển trong tương lai, Murati nói. Trong khi hiện tại GPT-4o có thể nhìn vào một bức ảnh menu bằng một ngôn ngữ khác và dịch nó, trong tương lai, mô hình có thể cho phép ChatGPT "xem" một trận đấu thể thao trực tiếp và giải thích luật chơi cho bạn.

OpenAI cũng khẳng định, GPT-4o sẽ hỗ trợ đa ngôn ngữ với hiệu suất nâng cao cho khoảng 50 ngôn ngữ. Và trên API của OpenAI và Azure OpenAI Service của Microsoft, GPT-4o nhanh gấp đôi, giá rẻ hơn một nửa và có giới hạn tỷ lệ cao hơn so với GPT-4 Turbo, công ty cho biết.

Hiện tại, giọng nói chưa phải là một phần của GPT-4o API cho tất cả khách hàng. OpenAI, với lý do rủi ro lạm dụng, cho biết họ dự định sẽ ra mắt hỗ trợ cho khả năng xử lý âm thanh mới của GPT-4o cho "một nhóm đối tác đáng tin cậy nhỏ" trong vài tuần tới. Nhưng nếu khả năng giao tiếp đa phương tiện mới thực sự hiệu quả như tuyên bố của OpenAI, có lẽ đã đến lúc người dùng không cần đến bàn phím để giao tiếp với máy móc nữa.

Xuất hiện trên cả phiên bản miễn phí

GPT-4o có sẵn trên gói miễn phí của ChatGPT từ hôm nay và cho người đăng ký gói ChatGPT Plus và Đội ngũ trả phí của OpenAI với giới hạn tin nhắn "cao gấp 5 lần". (OpenAI lưu ý rằng ChatGPT sẽ tự động chuyển sang GPT-3.5, một mô hình cũ hơn và kém năng lực hơn, khi người dùng chạm đến giới hạn tỷ lệ.) Trải nghiệm ChatGPT giọng nói được nâng cấp nhờ GPT-4o sẽ ra mắt phiên bản alpha cho người dùng Plus trong tháng tới, cùng với các tùy chọn dành cho doanh nghiệp.

OpenAI giới thiệu mô hình GPT-4o mới: chatbot AI toàn năng xử lý được cả giọng nói và hình ảnh, người dùng miễn phí cũng được sử dụng- Ảnh 3.

ChatGPT hiện đã có phiên bản desktop dành cho MacOS, giúp người dùng làm việc liền mạch hơn

Ngoài ra người dùng ChatGPT phiên bản miễn phí cũng được tiếp cận cửa hàng GPT Store, cửa hàng các công cụ và chatbot bên thứ ba được xây dựng trên mô hình AI của OpenAI – một tính năng trước đây chỉ dành cho người dùng trả phí.

OpenAI giới thiệu mô hình GPT-4o mới: chatbot AI toàn năng xử lý được cả giọng nói và hình ảnh, người dùng miễn phí cũng được sử dụng- Ảnh 4.

Phiên bản dành cho desktop cũng giúp lập trình viên làm việc tiện lợi hơn

Trong một tin liên quan, OpenAI thông báo rằng họ đang làm mới giao diện web của ChatGPT với màn hình chính "hơi hướng đối thoại" và bố cục tin nhắn mới, cùng với phiên bản desktop của ChatGPT cho MacOS giúp người dùng đặt câu hỏi qua phím tắt hoặc chụp và thảo luận về ảnh chụp màn hình. Phiên bản cho Windows sẽ ra mắt trong năm nay.

Trước khi ra mắt GPT-4o, nhiều báo cáo dự đoán rằng OpenAI sẽ công bố một công cụ tìm kiếm AI để cạnh tranh với Google và Perplexity, nhưng rõ ràng OpenAI còn đang làm được nhiều hơn thế. Điều thú vị hơn nữa là việc OpenAI ra mắt mô hình mới được diễn ra ngay trước sự kiện nhà phát triển của Google I/O một ngày, nơi nhiều khả năng Google sẽ công bố các sản phẩm AI mới của mình.


Gửi bình luận
(0) Bình luận
1

TP.HCM: Tổng duyệt diễu binh, cấm xe nhiều tuyến đường từ 3 giờ sáng 27-4

TP.HCM sẽ cấm lưu thông nhiều tuyến đường ở khu vực trung tâm từ 3 giờ đến 12 giờ trưa ngày 27-4 nhằm tổng duyệt cấp Nhà nước chương trình diễu binh, diễu hành kỷ niệm 50 năm Ngày Giải phóng miền Nam, thống nhất đất nước 30-4-1975.
2

Dropbox cải tiến Dash và tích hợp AI

Dropbox (Mỹ) chính thức công bố bản cập nhật quan trọng cho công cụ tìm kiếm và quản lý thông tin toàn diện Dropbox Dash.
3

Cách xem trực tiếp Lễ diễu binh ngày 30/4 trên máy tính và điện thoại

Bài viết dưới đây sẽ hướng dẫn bạn cách thức xem trực tiếp Lễ diễu binh, diễu hành mừng 50 năm ngày Thống nhất Đất nước trên smartphone và máy tính.
4

Người dùng có thể thay thế trợ lý ảo Siri trên mọi iPhone bằng ứng dụng mới

Ứng dụng Perplexity trên nền tảng iOS vừa nhận được bản cập nhật quan trọng, bổ sung tính năng trợ lý giọng nói sử dụng công nghệ AI đàm thoại tiên tiến.
5

Theo dõi việc học của con qua app Công dân số TP.HCM

Khi cài đặt app Công dân số TP.HCM, phụ huynh có thể nắm bắt thông tin lớp, trường, kết quả học kỳ, các hoạt động ngoại khóa cũng như nhận thông báo chính thức từ nhà trường.

Công cụ giúp trải nghiệm miễn phí các chatbot AI thông minh nhất hiện nay

Bài viết dưới đây sẽ hướng dẫn bạn cách thức để trải nghiệm những chatbot tích hợp trí tuệ nhân tạo (AI) thông minh nhất hiện nay, bao gồm ChatGPT, Gemini, Claude, Llama…

5 app chỉnh ảnh hot nhất năm 2024, rất cần cho mùa du lịch

Muốn có những bức ảnh "nghìn like" trên mạng xã hội, đừng bỏ qua những app chỉnh ảnh cực đẹp này nhé.

Học ngay 5 mẹo gây ấn tượng mạnh trong 1/10 giây đầu tiên

Trong 7 giây đầu tiên, người khác đã có đến 11 nhận xét về bạn từ làn da, gương mặt, trang phục, mái tóc, ánh nhìn, cử chỉ, giọng nói, cách chào hỏi…

Làm thế nào để áp dụng những gì bạn đọc vào cuộc sống?

Dưới đây là những lời khuyên như một cách để tự thử nghiệm áp dụng những gì bạn đọc vào cuộc sống của mình, từ đó có cuộc sống tốt đẹp hơn.

40 tác giả nổi tiếng nói gì về việc đọc sách

Bất kỳ nhà văn vĩ đại nào cũng cần phải là một người ham đọc sách. Dưới đây là những câu nói của 40 tác giả nổi tiếng khi nói về việc đọc.

Ông Hoàng Nam Tiến: Đại học không phải cấp 4, hãy biến trí tuệ nhân tạo thành 'con sen', 'osin'

Sinh viên cần bộc lộ khả năng làm chủ trí tuệ nhân tạo, tạo ra sự khác biệt chứ không phải dùng trí tuệ nhận tạo để tạo ra bài giải...

Cách giải tỏa cơn giận hiệu quả

Hãng tin AFP dẫn một nghiên cứu mới của Nhật Bản chỉ ra khi giận dữ không nên quát mắng đồng nghiệp hay hét với gối, mà hãy viết cảm xúc ra giấy rồi xé nhỏ hoặc vứt đi để bình tĩnh lại.

Cách khóa trang cá nhân với người lạ trên Facebook

Tính năng này đã được Facebook ra mắt khá lâu, nhưng mới đây, Facebook mới chính thức cho phép người dùng tại Việt Nam khóa trang cá nhân của mình với người lạ nếu muốn.

31 câu nói của Đức Đạt Lai Lạt Ma thứ 14 về tình yêu, hòa bình và lòng từ bi

Suy ngẫm - TĐ - 04/05/2025 13:00
 Đức Đạt Lai Lạt Ma là danh hiệu lãnh đạo tinh thần của Phật giáo Tây Tạng. Trong tiếng Mông Cổ, Đạt Lai có nghĩa là “đại dương” hay “rộng lớn” và trong tiếng Tây Tạng, “Lạt Ma” có nghĩa là “bậc thầy” hoặc “đạo sư”.

Cách kiểm tra tài khoản Google có bị đăng nhập trái phép hay không

Kỹ năng - Cẩm Bình - 04/05/2025 12:00
Tài khoản Google gắn liền với công việc lẫn nhiều hoạt động trực tuyến, vì vậy ta cần định kỳ kiểm tra xem có ai ngoài bản thân đăng nhập hay không.

Vì sao Vương Trùng Dương không dám giết Âu Dương Phong?

Thư giãn - Nguyệt Phạm - 04/05/2025 11:00
Vương Trùng Dương, võ công cái thế, từng có cơ hội tiêu diệt Âu Dương Phong nhưng lại không ra tay.

Ông chủ KFC phá sản ở tuổi 60, trải qua 1009 lần thất bại mới nếm vị thành công

Phong cách sống - Vũ Anh - 04/05/2025 10:00
Câu chuyện thành công xây dựng từ hàng ngàn lần thất bại của "cha đẻ" KFC mãi truyền cảm hứng cho thế hệ sau.

Xem "Sex Education", tôi nhận ra 1 điều ngu ngốc khiến cuộc sống chật vật suốt 8 năm

Điện ảnh - Ứng Hà Chi - 04/05/2025 09:00
Sau bộ phim Sex Education đã giúp tôi chiêm nghiệm ra nhiều điều quan trọng đầy thấm thía về cuộc sống.

Tự do đầu tiên và cuối cùng - Khi hạnh phúc không còn là đích đến

Từ sách - Phim - Quìn - 04/05/2025 08:00
Giữa vô vàn thông tin, thành tựu và lựa chọn, chúng ta lẽ ra phải cảm thấy đủ đầy hơn bao giờ hết. Vậy nhưng nhiều người vẫn thấy thiếu vắng, lạc lõng.

Facebook, Instagram triển khai tài khoản cho người dùng dưới 18 tuổi

Kỹ năng - Tuấn Anh - 03/05/2025 13:00
Meta tiếp tục đẩy mạnh các nỗ lực bảo vệ người dùng vị thành niên bằng cách mở rộng loạt biện pháp an toàn từ Instagram sang Facebook và Messenger.

Cơn ác mộng deepfake ở Hàn Quốc: Khi hình ảnh AI giả mạo phá hủy cuộc đời thật

Suy ngẫm - Nhật Hạ (Theo CNN) - 03/05/2025 12:00
Hàn Quốc đang đối mặt với làn sóng tội phạm deepfake ngày càng gia tăng, trong đó, các công nghệ AI được sử dụng để tạo ra hình ảnh và video giả mạo, thường nhắm vào phụ nữ, bao gồm cả học sinh, giáo viên và người nổi tiếng.

Cái Bang hay Thiếu Lâm, đâu là nơi xuất phát của Hàng Long Thập Bát Chưởng?

Thư giãn - Nguyệt Phạm - 03/05/2025 11:00
Hàng Long Thập Bát Chưởng, tuyệt kỹ võ công lừng lẫy trong thế giới võ hiệp Kim Dung, luôn là đề tài gây tranh cãi về nguồn gốc thực sự của nó.

Nhặt đứa trẻ sơ sinh bị bỏ rơi giữa trời lạnh giá, nhiều năm sau người đàn ông nhận về một thứ

Truyền cảm hứng - Đông - 03/05/2025 10:00
Cái kết của câu chuyện này khiến ai đọc xong cũng cảm thấy ấm áp.

Gia Định là nhớ Sài Gòn là thương - Thương nhớ mảnh đất Sài Gòn - Gia Định qua từng trang ký ức

Từ sách - Phim - Đan Thanh - 03/05/2025 09:00
"Gia Định là nhớ, Sài Gòn là thương" tập hợp những bài viết của nhà báo Cù Mai Công về TP. HCM trong hai thời kỳ: TPHCM trước năm 1975 và Gia Định thời "rừng rậm, đầm lầy", qua đó thủ thỉ với người đọc bằng những ký ức về một vùng đất nhân hậu và thân thương.

Putin - Logic của quyền lực - Tôn giáo trong chiến lược quyền lực của Vladimir Putin

Từ sách - Phim - TĐ - 03/05/2025 08:00
Đã sau nửa đêm khi ông chủ nhà nghỉ mời tôi một chuyến tham quan nhỏ trên phần đất thênh thang của Novo-Ogaryovo. Chạy chỉ vài trăm mét, ô tô đỗ lại trước một kiến trúc tối nhỏ. Vladimir Putin mở cửa, bật đèn và làm dấu thánh.

Tỷ phú Rockefeller chia sẻ 9 bí quyết đáng kinh ngạc cho con cháu

Suy ngẫm - Thùy Linh - 02/05/2025 13:00
"Quan trọng nhất là để cho người khác thả lỏng cảnh giác. Sau đó, chúng ta tóm lấy cơ hội, lặng lẽ đứng đầu và khiến mọi người kinh ngạc. Nếu làm được, con sẽ dễ thành đại sự”, ông trùm kinh doanh đã âm thầm chia sẻ những bí quyết đáng kinh ngạc cho con cháu.

Góc khuất giản dị của Youtube

Thư giãn - Hà My - 02/05/2025 12:00
Ngay bên ngoài phạm vi chỉ đạo của thuật toán, phần lớn video trên YouTube cho thấy một khía cạnh gần như bị lãng quên - nơi mọi người đăng tải video chỉ kết nối và chia sẻ, thay vì kiếm lợi nhuận.

Kỷ nguyên SEO mới: Các thương hiệu bỏ Google, chuyển sang ChatGPT và chatbot AI

Kỹ năng - Sơn Vân - 02/05/2025 11:00
Các công ty quảng cáo áp dụng chiến lược mới để đảm bảo khách hàng xuất hiện trong câu trả lời của chatbot ChatGPT do OpenAI phát triển và Claude của Anthropic.
HẠT GIỐNG TÂM HỒN
2019 Bản quyền thuộc về hatgiongtamhon.com.vn. Phát triển bởi ONECMS
Chủ nhật, 04/05/2025