Mẹo nhỏ khi kết hợp tệp âm thanh với OpenAI

Anh Tú10/07/2025 13:00
Mẹo nhỏ khi kết hợp tệp âm thanh với OpenAI

Việc sử dụng các dịch vụ AI của OpenAI một cách nhanh chóng có thể khiến bạn tốn kém. Tuy nhiên, có một mẹo hữu ích giúp tiết kiệm chi phí: sử dụng API để tổng hợp các bản ghi âm.

Bất kỳ ai muốn sử dụng đầy đủ các tính năng của ChatGPT đều phải trả phí. Hiện tại, OpenAI tính phí 23 euro mỗi tháng cho gói Plus. Đối với người dùng cá nhân muốn truy cập thực sự không giới hạn, họ phải trả tới 229 euro mỗi tháng cho dịch vụ gọi là “quầy ảo” (virtual counter).

Tuy nhiên, chi phí có thể còn cao hơn nữa đối với các nhà phát triển sử dụng dịch vụ AI của OpenAI thông qua API, vì họ sẽ bị tính phí dựa trên số lượng token đầu vào và đầu ra.

Cách giảm chi phí chuyển đổi âm thanh thành văn bản

Điều này đồng nghĩa rằng nhiệm vụ càng phức tạp thì càng tốn kém. Với GPT-4.1, một triệu token đầu vào có giá 2 USD. Còn một triệu token đầu ra thì đã có giá tới 8 USD. Tuy nhiên, đối với các nhiệm vụ sử dụng API của OpenAI, có một mẹo giúp giảm đáng kể chi phí.

Mẹo này đến từ lập trình viên George Mandis, người đã chia sẻ phát hiện của mình trên blog cá nhân. Mandis muốn AI của OpenAI chuyển lời nói thành văn bản và tóm tắt một video YouTube dài. Vì video dài hơn 40 phút, nên chi phí sử dụng API sẽ tăng lên tương ứng. Tuy nhiên, anh đã giảm dung lượng và thời lượng file bằng một cách tiếp cận gián tiếp mà không làm giảm chất lượng bản ghi.

Trước tiên, anh sử dụng chương trình “yt-dlp” để trích xuất và tải xuống phần âm thanh của video YouTube. Sau đó, dùng phần mềm “ffmpeg” để tăng tốc tệp âm thanh lên gấp đôi hoặc gấp ba lần. Cả hai chương trình đều miễn phí và có thể tìm thấy trên GitHub. Những gì có thể khiến tai người nghe cảm thấy mệt mỏi thì AI lại xử lý một cách dễ dàng. Quan trọng hơn, nó vẫn có thể tạo bản ghi chính xác mà không mắc lỗi nghiêm trọng.

Tạo bản tóm tắt chỉ trong vài bước

Sau khi AI đã tạo bản ghi âm thành văn bản cho bạn, bạn có thể tải đoạn văn bản đó lên lại OpenAI để yêu cầu tóm tắt nội dung. Như vậy, bạn đã tinh gọn một video YouTube dài 40 phút thành những điểm chính yếu nhất.

Nếu bạn không có quyền truy cập API của OpenAI, bạn vẫn có thể làm điều này với ChatGPT. Dù chatbot không thể phân tích trực tiếp tệp âm thanh, nhưng nó hoàn toàn có thể tóm tắt văn bản.

Tuy nhiên, chúng ta vẫn không biết mẹo này có "thọ" lâu không. Rất có thể OpenAI sẽ sớm phát hiện ra lỗ hổng để bịt lại nó. Khi đó, dữ liệu đầu vào sẽ tính theo cách khác với hiện tại.

Riêng với video trên YouTube, bạn không cần tệp âm thanh để tạo bản ghi. Mandis chỉ tạo ra tệp âm thanh vì anh nghĩ rằng tính năng ghi chú (transcript) của nền tảng YouTube sẽ không hoạt động với video. Bạn chỉ cần cuộn xuống dưới video và nhấp vào “Xem bản ghi” (View Transcript). Sau đó, sao chép và dán văn bản cùng với câu lệnh phù hợp vào ChatGPT để nhờ nó tóm tắt cho bạn.

 


Gửi bình luận
(0) Bình luận
1

Không phải uống cafe, đi bộ, thực hiện việc này 6 phút/ngày giúp giảm 70% stress

Hoạt động này dễ thực hiện, không cần tốn nhiều thời gian, tiền bạc mà vẫn đảm bảo hiệu quả cao trong việc giảm căng thẳng, tái tạo năng lượng cho trí não.
2

Đọc sách định hình bộ não, điều gì xảy ra nếu chúng ta ngừng đọc?

Đọc sách từng là thói quen phổ biến trong cuộc sống thường ngày, nhưng giờ đây dường như thói quen này đang trở thành một thú vui ngày càng mai một.
3

5 đặc điểm tính cách lớn bạn có thể thay đổi bằng cách luyện tập

Một số người xoay chuyển cuộc đời chỉ sau một khoảnh khắc nhận thức vỡ òa—đó có thể là một lời nói từ một người có uy tín, như bác sĩ tâm lý, hoặc có thể đến từ sự thức tỉnh nội tại của chính họ.
4

Nếu có 1 cậu con trai thuộc Gen Alpha, bố mẹ nên nuôi dạy con thế nào?

Đây là thế hệ “công dân số” thực thụ, thông minh, nhạy bén nhưng cũng dễ chịu tác động từ môi trường xung quanh. Vì vậy, bố mẹ cần định hướng thật khéo léo để con phát triển toàn diện.
5

6 kiểu emoji người EQ thấp "chuộng" nhất

Khi sử dụng MXH, việc sử dụng emoji cũng là dấu hiệu cho thấy bạn sở hữu EQ cao hay thấp.

ChatGPT có bao nhiêu mô hình và bạn nên chọn loại nào là 'chân ái'?

Lần đầu tiên, OpenAI cung cấp một bảng so sánh toàn diện 6 mô hình hiện có và đưa ra khuyến nghị rõ ràng về việc nên dùng mô hình nào trong từng trường hợp.

AI có đang âm thầm làm suy thoái ngôn ngữ của chúng ta?

Liệu AI có đang làm suy thoái ngôn ngữ của chúng ta? Không nhất thiết phải như vậy. Chuyên gia tư vấn ngôn ngữ Anne-Kathrin Gerstlauer chia sẻ những mẹo giúp người dùng cải thiện kỹ năng ngôn ngữ của mình.

Rò rỉ bí mật Meta đào tạo các chatbot AI chủ động nhắn tin, nhớ hội thoại, cố giữ người dùng ở lại

Meta Platforms đang đào tạo các chatbot trí tuệ nhân tạo (AI) có thể tùy biến để trở nên chủ động hơn, chủ động nhắn tin mà không cần chờ người dùng nhắn trước, nhằm tiếp nối những cuộc trò chuyện trước đó, trang Insider cho biết.

Vì sao video ngắn trên Internet khiến việc học trở nên khó khăn?

Hàng triệu người xem các video học tập ngắn trên nhiều nền tảng mạng xã hội mỗi ngày với hy vọng tiếp thu kiến thức nhanh hơn. Tuy nhiên, hai nghiên cứu mới đây lại cho thấy điều ngược lại.

Cảnh báo 'tội phạm tình dục kỹ thuật số' tăng chóng mặt bởi video AI

Hàn Quốc cho biết các nhà cung cấp dịch vụ internet trong và ngoài nước như Naver, Google và Kakao trong năm 2024 đã xóa và chặn 180.000 video quay lén bất hợp pháp, gồm cả video khiêu dâm giả mạo do AI tạo ra.

Công cụ tra cứu địa chỉ mới sau sáp nhập

Một số nền tảng công nghệ đã được triển khai để hỗ trợ người dân kiểm tra địa chỉ mới, đảm bảo không ảnh hưởng tới công việc, cuộc sống.

AI tạo video cực đỉnh của Google Veo 3 chính thức “chào sân” Việt Nam

Google triển khai mô hình tạo video AI Veo 3 tại Việt Nam qua ứng dụng Gemini, cho phép người dùng tạo video từ văn bản kèm âm thanh, tích hợp công cụ nhận diện nội dung do AI tạo ra.

ChatGPT có thể gây ra chứng loạn thần, khiến người dùng phải nhập viện điều trị

Ngày càng nhiều người dùng ChatGPT phát triển nỗi ám ảnh mất kiểm soát với chatbot trí tuệ nhân tạo AI, dẫn đến các cuộc khủng hoảng sức khỏe tâm thần nghiêm trọng với biểu hiện như hoang tưởng, ảo tưởng và tách rời thực tại, trang Futurism đưa tin.

Dự báo thị trường khoán ngoài

Blog GS John VU - GS John Vu - 10/09/2025 13:00
Theo nhiều nghiên cứu mới, một số địa chỉ khoán ngoài ở Trung và Đông Âu đang có vấn đề khi họ phải cạnh tranh với những địa chỉ mới ở châu Phi, Trung Đông và Đông Nam Á. Lí do đơn giản: Chi phí làm kinh doanh tăng lên.

Xem Sex Education, tôi nghĩ tới sai lầm mà cha mẹ nào cũng cần tránh

Điện ảnh - Lam Chi - 10/09/2025 12:00
Xem phim “Sex Education” khiến tôi chiêm nghiệm được nhiều điều về tuổi trẻ, tình thân và cả trách nhiệm làm cha mẹ.

Đọc sách định hình bộ não, điều gì xảy ra nếu chúng ta ngừng đọc?

Kỹ năng - Đức Khương - 10/09/2025 11:00
Đọc sách từng là thói quen phổ biến trong cuộc sống thường ngày, nhưng giờ đây dường như thói quen này đang trở thành một thú vui ngày càng mai một.

‘Không phải ánh sáng cuối đường hầm, đây mới là điều hầu hết bệnh nhân của tôi thấy trước khi chết’

Suy ngẫm - Trà My - 10/09/2025 10:00
Một y tá chăm sóc cuối đời cho biết bệnh nhân thường nhìn thấy điều gì đó mang lại sự an ủi trước khi qua đời.

Sức mạnh của người thấu cảm Kỳ 3: 7 công cụ giúp bạn học cách nói 'không'

Từ sách - Phim - Quang Thanh - 10/09/2025 09:30
Bây giờ khi đã hiểu tầm quan trọng của việc nói “không”, bạn cần học cách đối mặt với cảm giác tội lỗi có thể nảy sinh từ đó.

Sát-na này là thiên thu - Phóng sanh từ tâm

Từ sách - Phim - Quìn - 10/09/2025 08:00
Phóng sanh đích thực, theo Đại đức Thích Đồng Tâm, bắt đầu từ tâm - từ sự nuôi dưỡng lòng từ bi trong từng lựa chọn, từng suy nghĩ, từng khoảnh khắc sống.

Đảm bảo chất lượng phần mềm

Blog GS John VU - GS John Vu - 09/09/2025 13:00
Khi dự án phần mềm trở nên lớn hơn và phức tạp hơn, vai trò của Đảm bảo chất lượng phần mềm – Software Quality Assurance (SQA) trở nên gay gắt hơn.

Xem "Sex education", tôi chợt nhớ lại câu hét "Con căm thù bố" lúc 14 tuổi mà thấy lòng quặn đau

Điện ảnh - Thanh Uyên - 09/09/2025 12:00
Nếu không có bộ phim "Sex education", chắc tôi vẫn chưa nhận ra được nỗi khổ của bố.

6 kiểu emoji người EQ thấp "chuộng" nhất

Kỹ năng - Đông - 09/09/2025 11:00
Khi sử dụng MXH, việc sử dụng emoji cũng là dấu hiệu cho thấy bạn sở hữu EQ cao hay thấp.

Bất ngờ sống lại sau khi tim ngừng đập, nam diễn viên nổi tiếng Al Pacino thốt lên 3 từ về “thế giới bên kia”

Suy ngẫm - Lam Chi - 09/09/2025 10:00
Al Pacino là một trong những diễn viên vĩ đại nhất của điện ảnh Mỹ. Ông từng tiết lộ rằng mình đã có trải nghiệm về “thế giới bên kia” vào năm 2020.

Sức mạnh của người thấu cảm Kỳ 2: Nói "không" với mối quan hệ không lành mạnh

Từ sách - Phim - Quang Thanh - 09/09/2025 09:00
Khi sợ làm người khác thất vọng, chúng ta dễ trở thành phiên bản mà họ muốn chúng ta trở thành. Nỗi sợ này khiến chúng ta tìm đủ mọi cách để làm người khác hài lòng.

1,17 tỉ lượt xem chàng trai dựng nhà trong rừng như người nguyên thủy

Phong cách sống - Nguyễn Phượng - 09/09/2025 08:00
Mặc dù im lặng trong suốt video dài 15 phút, chàng trai vẫn khiến hàng triệu người phải theo dõi mình bởi biệt tài tạo dựng cuộc sống như người nguyên thủy.

Xem Sex Education, tôi nhận ra 5 điều quá hay để dạy con, về sau cuộc đời sóng gió mấy cũng không sợ!

Điện ảnh - Thanh Hương - 08/09/2025 12:00
Tôi đã lấy giấy bút, ghi chép lại để dạy cho con.

Rất tiếc, nhiều người hô hào AI nhưng lại đang dùng ChatGPT sai cách

Kỹ năng - Nguyễn Nghĩa - 08/09/2025 11:00
ChatGPT có đến 7 mô hình khác nhau, mỗi cái mạnh một kiểu. Dùng sai mô hình là vừa chậm vừa dở, lại tốn tiền đăng ký.

Tỉnh lại sau hôn mê, người phụ nữ kể về ‘thế giới bên kia’ và thốt lên thật không thể tin được!

Suy ngẫm - Lam Chi - 08/09/2025 10:00
Trải nghiệm “thoát xác” và đến “thế giới bên kia” để lại ấn tượng sâu sắc cho người phụ nữ này.
HẠT GIỐNG TÂM HỒN
2019 Bản quyền thuộc về hatgiongtamhon.com.vn. Phát triển bởi ONECMS
Thứ 5, 11/09/2025