OpenAI - DeepSeek và câu chuyện nhân quả

Sơn Vân05/02/2025 11:00
OpenAI - DeepSeek và câu chuyện nhân quả

Trong thế giới trí tuệ nhân tạo (AI) tạo sinh, nhiều công ty sẽ có lúc nhận ra: Tác phẩm gốc của họ đang được sử dụng để đào tạo các mô hình AI có thể cạnh tranh với họ.

Khoảnh khắc đó đã đến với OpenAI ("cha đẻ" ChatGPT) và Giám đốc điều hành công ty khởi nghiệp Mỹ này là Sam Altman.

Tuần trước, công ty khởi nghiệp DeepSeek (Trung Quốc) ra mắt R1, mô hình AI nguồn mở mạnh mẽ được cho là sử dụng ít dữ liệu hơn với chi phí đào tạo chỉ bằng một phần nhỏ so với các mô hình của các hãng công nghệ hàng đầu Mỹ như OpenAI, Meta Platforms (chủ sở hữu Facebook) và Anthropic. Điều này có thể đánh dấu bước ngoặt trong mức đầu tư cần thiết cho AI.

Thung lũng Silicon rất lo lắng vì trong các bài đánh giá từ bên thứ ba, R1 đã vượt trội mô hình AI của OpenAI, Meta Platforms và Anthropic. Được vận hành bởi mô hình V3 - phiên bản đời trước của R1, trợ lý AI của DeepSeek đã nhanh chóng trở nên phổ biến kể từ khi ra mắt vào ngày 10.1 và đứng đầu bảng xếp hạng Apple App Store ở Mỹ về các ứng dụng miễn phí được đánh giá cao nhất, theo hãng Sensor Tower.

Cột mốc này nhấn mạnh cách DeepSeek đã để lại ấn tượng sâu sắc tại Thung lũng Silicon, làm lung lay quan niệm phổ biến về sự thống trị của Mỹ trong lĩnh vực AI cùng hiệu quả từ các biện pháp kiểm soát xuất khẩu nhằm vào chip tiên tiến và năng lực AI của Trung Quốc.

Tuần này, OpenAI tuyên bố DeepSeek có thể đã sử dụng "không hợp pháp" các dữ liệu đầu ra của OpenAI để huấn luyện mô hình AI mới bằng một quy trình gọi là distillation (chưng cất).

Distillation trong AI là kỹ thuật học máy trong đó một mô hình nhỏ hơn, đơn giản hơn (gọi là student model – mô hình học sinh) được huấn luyện để bắt chước hiệu suất của mô hình lớn hơn, phức tạp hơn (gọi là teacher model – mô hình giáo viên).

Cách hoạt động của distillation

Mô hình giáo viên: Một mô hình AI lớn, mạnh mẽ được huấn luyện trước trên một lượng dữ liệu lớn.

Mô hình học sinh: Một mô hình nhỏ hơn được huấn luyện bằng cách học lại từ đầu ra của mô hình giáo viên thay vì chỉ dựa vào dữ liệu gốc.

Chuyển giao kiến thức: Mô hình học sinh học cách đưa ra các dự đoán tương tự như mô hình giáo viên nhưng với ít tài nguyên tính toán hơn.

Lợi ích của distillation

- Tăng hiệu suất: Giúp tạo ra các mô hình nhỏ gọn hơn nhưng vẫn duy trì độ chính xác cao.

- Tiết kiệm tài nguyên: Giúp AI chạy nhanh hơn trên các thiết bị có tài nguyên hạn chế như điện thoại, IoT (internet vạn vật).

- Bảo mật & tối ưu hóa: Có thể dùng để tạo ra các bản sao tối ưu hóa của mô hình AI mà không cần truy cập trực tiếp vào mô hình gốc.

Mối lo ngại về bảo mật

Distillation có thể được sử dụng để sao chép hoặc tái tạo mô hình AI mạnh mẽ từ các công ty đối thủ, dẫn đến lo ngại về đánh cắp tài sản trí tuệ. Đây là lý do tại sao Mỹ đang lo ngại rằng các công ty Trung Quốc có thể đang sử dụng kỹ thuật này để học từ mô hình AI tiên tiến của OpenAI.

Với một số chuyên gia AI, những lời phàn nàn này của OpenAI là “đạo đức giả”. Thành công của OpenAI cũng dựa trên một quy trình tương tự. Trong nhiều năm, công ty này đã thu thập dữ liệu và đầu ra từ internet để đào tạo mô hình AI của mình, gồm cả việc lấy nội dung có bản quyền và các tác phẩm gốc từ hàng ngàn công ty mà không có sự cho phép.

Trên thực tế, đây là điều mà hầu hết hãng phát triển mô hình AI đều làm, theo Nick Vincent, phó giáo sư khoa học máy tính tại Đại học Simon Fraser (Canada), chuyên nghiên cứu cách dữ liệu được sử dụng trong AI.

"Những công ty này vừa tranh luận về quyền được huấn luyện trên bất cứ thứ gì họ lấy được, vừa từ chối cho đối thủ cạnh tranh huấn luyện trên đầu ra của họ", Nick Vincent viết trong một bài blog tuần này, đồng thời đặt câu hỏi: "Luật chơi chỉ dành cho các anh, còn chúng tôi thì không à?".

openai-deepseek-va-cau-chuyen-nhan-qua.jpg
Sam Altman cho rằng DeepSeek có thể sử dụng "không hợp pháp" các dữ liệu đầu ra của OpenAI để huấn luyện mô hình AI mới bằng quy trình distillation - Ảnh: Getty Images

OpenAI - DeepSeek và câu chuyện nhân quả

Nick Vincent coi DeepSeek trỗi dậy là hệ quả tất yếu của một môi trường huấn luyện dữ liệu vô tội vạ, nơi các công ty AI lấy nội dung họ muốn và sau đó xin lỗi.

Giờ đây, điều này đã phản tác dụng với OpenAI, khi chính dữ liệu đầu ra của họ có thể đang bị khai thác nhân danh tiến bộ AI. “Công ty sẽ phải vật lộn để tự bảo vệ mình trước tòa án dư luận về vấn đề này. Sẽ có một sự tính toán sắp xảy ra", Nick Vincent nói hôm 30.1.

Ông hy vọng sự tính toán này sẽ khuyến khích các hãng công nghệ tạo ra một hệ thống mới để ghi nhận và bồi thường hợp lý cho những người sáng tạo nội dung.

"Đến nay, chưa phòng thí nghiệm AI nào thực sự suy nghĩ nghiêm túc về điều đó. Bây giờ, DeepSeek khiến OpenAI trở thành ‘nạn nhân’ của cách làm này", Nick Vincent nói thêm.

Sử dụng hợp lý chỉ dành cho OpenAI hay tất cả?

Dữ liệu huấn luyện chất lượng cao là yếu tố quan trọng để tạo ra các mô hình AI mạnh mẽ. Nhiều công ty đã tạo ra thông tin này muốn được trả tiền cho việc cung cấp sở hữu trí tuệ cho các sản phẩm mới. Trong khi đó, các hãng công nghệ lại không muốn bị ép phải trả tiền. Tranh chấp này đang được đưa ra tòa án.

OpenAI đang bị các tác giả kiện với cáo buộc vi phạm luật bản quyền khi sử dụng sách của họ để huấn luyện mô hình AI. Trang The New York Times cũng đang theo đuổi một vụ kiện tương tự với OpenAI.

OpenAI còn bị cáo buộc sử dụng nội dung YouTube để huấn luyện Sora, mô hình AI tạo video từ văn bản. Neal Mohan, Giám đốc điều hành YouTube, năm ngoái tuyên bố rằng hành động của OpenAI sẽ vi phạm quy định của nền tảng video này.

OpenAI phủ nhận vi phạm luật bản quyền, viện dẫn học thuyết "sử dụng hợp lý", cho phép sử dụng tác phẩm có bản quyền mà không có giấy phép trong một số trường hợp nhất định, bao gồm giảng dạy, nghiên cứu và đưa tin.

Vậy việc DeepSeek dùng dữ liệu đầu ra của OpenAI có được coi là sử dụng hợp lý không?

"Rất có thể là có", Nick Vincent bình luận.

Học thuyết “sử dụng hợp lý” không thể chỉ áp dụng khi có lợi cho một bên. Như vậy thì quá không công bằng.

Insider hỏi OpenAI về vấn đề này hôm 30.1 nhưng không nhận được phản hồi. OpenAI có quan hệ đối tác với một số công ty để sử dụng nội dung của họ để huấn luyện mô hình AI. Axel Springer, công ty mẹ của trang Insider, đã ký một thỏa thuận như vậy vào năm 2023.

Distillation và nhân quả

Làm thế nào mà đầu ra của một mô hình AI lại bị thu thập để phục vụ cho mục đích cạnh tranh?

Distillation (chưng cất) là thuật ngữ kỹ thuật chỉ việc trích xuất trí tuệ từ một mô hình AI và chuyển hóa nó vào mô hình mới, Nick Vincent giải thích.

Các "cha đẻ" của AI, gồm cả Geoffrey Hinton – người đoạt giải Nobel và VinFuture 2024, viết một bài nghiên cứu về khái niệm này vào năm 2015, có tiêu đề Chưng cất kiến thức trong mạng nơ-ron.

Thời điểm đó, các nhà nghiên cứu mô tả một phiên bản "hiền lành" hơn của kỹ thuật này, khi một phòng thí nghiệm hoặc công ty lấy các mô hình cũ của chính họ và sử dụng đầu ra của chúng để nâng cấp thành một mô hình mới thông minh hơn.

Việc chưng cất trí tuệ từ mô hình AI của người khác mà không có sự cho phép bị coi là không đúng đắn trong một số cộng đồng nghiên cứu, nhưng thực tế lại xảy ra rất nhiều, Nick Vincent cho biết.

Trong bài nghiên cứu về mô hình R1, DeepSeek đề cập đến việc sử dụng chưng cất với các mô hình mã nguồn mở, nhưng không nhắc đến OpenAI.

"Chúng tôi chứng minh rằng các mô hình lý luận lớn hơn có thể được chắt lọc thành các mô hình nhỏ hơn, mang lại hiệu suất tốt hơn", các nhà nghiên cứu của DeepSeek viết.

Từ cuối năm ngoái, khi DeepSeek bắt đầu gây ấn tượng với giới AI, một số nhà nghiên cứu AI suy đoán rằng DeepSeek đã sử dụng kết quả từ o1, mô hình "lý luận" mới của OpenAI, làm dữ liệu tổng hợp để cải thiện các mô hình riêng, chẳng hạn R1.

Tháng 12.2024, khi DeepSeek bắt đầu khiến giới AI trầm trồ, Sam Altman dường như đã mỉa mai đối thủ mới của mình.

"Việc sao chép một thứ gì đó mà bạn biết là có hiệu quả thì tương đối dễ. Song tạo ra một điều gì đó mới, rủi ro và khó khăn khi bạn không biết liệu nó có hiệu quả hay không thì lại vô cùng khó", ông viết trên mạng xã hội X.


Gửi bình luận
(0) Bình luận
1

Tra cứu nhanh 168 phường, xã, đặc khu thuộc TP.HCM mới

Chuyên trang toàn cảnh thông tin về 168 phường, xã, đặc khu của TP.HCM chính thức đi vào hoạt động. Bạn có thể tra cứu, theo dõi video và các thông tin về hoạt động vận hành khi TP.HCM thực hiện chính quyền 2 cấp.
2

Địa chỉ, điện thoại bộ phận một cửa cấp tỉnh của các sở, ngành TP.HCM

UBND TP.HCM vừa có thông báo về địa điểm, số điện thoại đường dây nóng của bộ phận một cửa tại các sở, ngành, phường, xã, đặc khu của TPHCM mới.
3

Một tính năng cực hữu ích trên VNeID mà người dùng không nên bỏ qua

Hành khách bay nội địa hiện nay có thể hoàn tất toàn bộ thủ tục từ mua vé, check-in, qua cửa an ninh đến lên máy bay mà không cần xuất trình giấy tờ tùy thân, nhờ ứng dụng nhận diện khuôn mặt qua VNeID.
4

Địa chỉ, điện thoại bộ phận một cửa ở 168 phường, xã, đặc khu của TP.HCM

UBND TP.HCM vừa có thông báo về địa điểm, số điện thoại đường dây nóng của bộ phận một cửa tại các phường, xã, đặc khu của TPHCM (mới).
5

Công an cảnh báo cẩn trọng trước chiêu trò hack Facebook mới cực tinh vi

Chiêu lừa đảo mới này dùng cách giả mạo Google để “hack” tài khoản Facebook cực kỳ tinh vi.

Người đi xe gắn máy vô tình mắc phải có thể bị phạt đến 14 triệu đồng theo Nghị định 168

Nghị định 168/2024/NĐ-CP có hiệu lực từ năm 2025 đã quy định về mức phạt đối với xe máy.

DeepSeek, AI mới của Trung Quốc là “món quà tặng cho cả thế giới”

Liệu sự ảnh hưởng này có thể tác động tới các công ty công nghệ được đầu tư khủng?

Sếp xem tin nhắn nhưng không phản hồi, người EQ cao ứng xử theo cách tinh tế này

Chắc hẳn nhiều người trong chúng ta đều ít nhất một lần loay hoay không biết phải phản ứng như thế nào khi rơi vào trường hợp tương tự.

7 mẹo vặt "đỉnh nóc, kịch trần"

7 mẹo này đã giúp tôi giải quyết được nhiều nhức nhối trong cuộc sống.

Ứng dụng Blockchain và AI vào học tập để làm chủ tương lai

Các nghiên cứu toàn cầu dự báo rằng AI sẽ tăng năng suất lao động toàn cầu thêm 40% vào năm 2035, mở ra cơ hội lớn trong việc cải thiện hiệu quả công việc và học tập.

Tôi "choáng váng" trước “trí tuệ nhà bếp” của mẹ mình!

Khi nói đến trí tuệ trong xử lý các công việc bếp núc, có lẽ không ai giỏi hơn những người phụ nữ trung niên, trong đó có mẹ tôi.

Bỏ đồng xu vào tủ lạnh trước khi về quê ăn Tết: Hành động đơn giản nhưng có thể bảo vệ bạn

Một mẹo nhỏ với đồng xu có thể giúp bạn bảo vệ chính mình và người thân trong những ngày vắng nhà dịp Tết.

"Điện thoại có nghe lén người dùng không" - Sự thật hóa ra còn tệ hơn nhiều

Điện thoại không nghe lén người dùng, nhưng điều tệ hơn là chúng ta bị theo dõi bởi rất nhiều thứ khác.

Oola – Tìm bình yên giữa vạn biến - Cuốn sách giúp bạn thoát khỏi vòng xoáy kiệt sức

Mỗi đêm, dù đã gắng hết sức, bạn vẫn mang theo nỗi mệt mỏi và câu hỏi nhức nhối: “Mình đang sống vì điều gì?”. Áp lực, căng thẳng, cảm giác mất kết nối với chính mình âm thầm bào mòn bạn từng ngày, biến mọi nỗ lực thành cuộc chạy đua không có vạch đích.

Oola – Tìm bình yên giữa vạn biến - Cuốn sách giúp bạn thoát khỏi vòng xoáy kiệt sức

Từ sách - Phim - Quìn - 02/07/2025 08:00
Mỗi đêm, dù đã gắng hết sức, bạn vẫn mang theo nỗi mệt mỏi và câu hỏi nhức nhối: “Mình đang sống vì điều gì?”. Áp lực, căng thẳng, cảm giác mất kết nối với chính mình âm thầm bào mòn bạn từng ngày, biến mọi nỗ lực thành cuộc chạy đua không có vạch đích.

12 nghệ sĩ hát trong MV "Rực rỡ ngày mới", truyền tải thông điệp nhân văn

Giải trí - Bích Phương - 01/07/2025 15:54
Mang giai điệu tươi sáng và thông điệp ý nghĩa, MV "Rực rỡ ngày mới" gây xúc động khi lan tỏa tinh thần nhân ái đến khán giả, bạn đọc nhân dịp kỷ niệm 20 năm thành lập báo điện tử Dân Trí.

Ảnh địa phận 29 tỉnh thành chỉ còn trong kỷ niệm, chạm cảm xúc nhiều người

Thư giãn - Việt Hà - 01/07/2025 13:19
Từ năm 2020 tới nay, anh Duy An rong ruổi tới khắp các vùng miền trên Tổ quốc, ghi lại bức ảnh về địa phận từng tỉnh thành. Không ngờ bộ ảnh nhận sự quan tâm đặc biệt do chạm tới cảm xúc nhiều người.

Xem Sex Education, tôi kinh ngạc trước 1 câu thoại quá hay, bèn đem đi dạy con trai

Điện ảnh - Thanh Hương - 01/07/2025 12:00
Khi nghe câu nói này, tôi đã bật cười và thích thú.

AI có thể tống tiền, phản bội khi cảm thấy bị đe dọa

Kỹ năng - Hoàng Vũ - 01/07/2025 11:00
Một nghiên cứu mới từ Anthropic cho thấy các mô hình ngôn ngữ tiên tiến như Claude hay Gemini không chỉ sẵn sàng vạch trần các vụ bê bối cá nhân để tự bảo vệ, mà thậm chí còn cân nhắc "để mặc bạn chết" nếu mục tiêu của chúng bị đe dọa.

Bức thư bà mẹ gửi con "nổi loạn": Nếu đứa trẻ nào cũng đọc được những câu chữ này, tương lai có thể sẽ khác

Suy ngẫm - Hiểu Đan - 01/07/2025 10:00
Tôi hy vọng nhiều bậc phụ huynh sẽ lan toả cho con mình chiêm nghiệm sớm!

Tôn thờ tuổi thơ "nghèo mà vui", cái giá phải trả đôi khi không chỉ là một kỳ thi trượt

Phong cách sống - Hiểu Đan - 01/07/2025 09:00
Cô gái trong sách "Em phải đến Harvard học kinh tế" lại một lần nữa khiến hội phụ huynh Việt "dậy sóng".

Bạn đang nghịch gì với đời mình - Khi khổ đau cũng là một phần của cuộc sống

Từ sách - Phim - Quìn - 01/07/2025 08:00
Có những ngày bạn cảm thấy mọi thứ từng bỗng vụn vỡ, những câu hỏi không lời đáp giày vò tâm trí: “Rốt cuộc mình sống để làm gì?”, “Tại sao phải đau khổ đến vậy?”. Bạn không biết bám vào đâu, càng vùng vẫy, càng thấy mình lún sâu trong một vũng lầy vô hình.

Tra cứu nhanh 168 phường, xã, đặc khu thuộc TP.HCM mới

Kỹ năng - 30/06/2025 13:55
Chuyên trang toàn cảnh thông tin về 168 phường, xã, đặc khu của TP.HCM chính thức đi vào hoạt động. Bạn có thể tra cứu, theo dõi video và các thông tin về hoạt động vận hành khi TP.HCM thực hiện chính quyền 2 cấp.

Cẩn thận với ký tự vô hình khi mở đường link trên điện thoại

Kỹ năng - Anh Tú - 30/06/2025 13:00
Chuyên gia bảo mật Gabriele Digregorio đã phát hiện một lỗ hổng tiềm ẩn trên hệ điều hành Android, có thể bị tin tặc khai thác để thực hiện các cuộc tấn công lừa đảo (phishing).

Xem 'Sex Education' tôi đau khổ hiểu ra: Dù hơn 30 tuổi vẫn mơ hồ về 2 chữ "trưởng thành"

Điện ảnh - Ứng Hà Chi - 30/06/2025 12:00
Hoá ra, trưởng thành không phải là kiểm soát mọi thứ, mà là học cách buông bỏ và bước tiếp.

Những lo ngại khi Facebook muốn truy cập vào thư viện ảnh trên điện thoại

Kỹ năng - Anh Tú - 30/06/2025 11:00
Facebook đang yêu cầu người dùng cho phép truy cập vào thư viện ảnh trên điện thoại để tự động đề xuất các phiên bản ảnh được chỉnh sửa bằng AI, gồm cả những bức ảnh chưa từng được tải lên Facebook.

Gia đình "độc lạ" Việt Nam, dâu rể các thế hệ mới đến đều choáng váng rồi... "nghiện" lúc nào không hay!

Phong cách sống - Khánh Huyền - 30/06/2025 10:00
Những ai lần đầu tiên đến gia đình tôi đều không giấu nổi sự sửng sốt. Có người khó tính từng bảo cách này khiến con cháu dễ sinh hư, thiếu tôn ti trật tự.

Khai mở hạnh phúc - Ba chiến lược giúp bạn hạnh phúc và viên mãn

Từ sách - Phim - Quang Thanh - 30/06/2025 09:00
Chúng ta thường nghĩ sức khỏe tinh thần suy kiệt là điều gì đó bất thường, thậm chí không tự nhiên. Nhưng bạn nên biết, có một số liệu thống kê nói rằng cứ bốn người sẽ có một người gặp những khó khăn về sức khỏe tinh thần.

Ánh sáng trong ta - Chậm lại để tiến xa hơn

Từ sách - Phim - Quìn - 30/06/2025 08:00
Chúng ta đang sống trong một thời đại mà tốc độ được xem là thước đo thành công. Hiểu nhanh, làm vội, đạt được càng nhiều càng tốt dường như đã trở thành tiêu chuẩn ngầm của một người “hiệu quả”.
HẠT GIỐNG TÂM HỒN
2019 Bản quyền thuộc về hatgiongtamhon.com.vn. Phát triển bởi ONECMS
Thứ 4, 02/07/2025