Mô hình AI sao chép giọng nói của OpenAI chỉ cần một mẫu âm thanh kéo dài 15 giây để hoạt động

OpenAI đang cung cấp quyền truy cập giới hạn vào một nền tảng sinh sản văn bản thành giọng nói do chính họ phát triển, có tên là Voice Engine. Platform này có khả năng tạo ra một giọng nói nhân tạo dựa trên một đoạn clip giọng nói dài 15 giây của một người. Giọng nói do AI tạo ra có thể đọc các lời nhắc văn bản theo lệnh bằng ngôn ngữ giống như người nói hoặc bằng một số ngôn ngữ khác. “Những triển khai quy mô nhỏ này đang giúp chúng tôi định hình phương pháp tiếp cận, các biện pháp bảo vệ và suy nghĩ về cách Voice Engine có thể được sử dụng cho điều tốt đẹp trong các ngành công nghiệp khác nhau,” OpenAI đã chia sẻ trên bài đăng blog của mình.

Các công ty được truy cập bao gồm công ty công nghệ giáo dục Age of Learning, nền tảng kể chuyện bằng hình ảnh HeyGen, nhà sản xuất phần mềm y tế tiền tuyến Dimagi, người tạo ứng dụng giao tiếp AI Livox, và hệ thống y tế Lifespan.

Trong những mẫu mà OpenAI đăng tải, bạn có thể nghe thấy những gì Age of Learning đã làm với công nghệ này để tạo nội dung lời bình giọng nói được chuẩn bị trước, cũng như đọc “các phản hồi cá nhân hóa, thời gian thực” cho sinh viên viết bởi GPT-4.

Đầu tiên, audio tham chiếu bằng tiếng Anh:

Và đây là ba đoạn clip âm thanh được tạo ra bởi AI dựa trên mẫu đó,

OpenAI cho biết họ bắt đầu phát triển Voice Engine vào cuối năm 2022 và công nghệ này đã được sử dụng để cung cấp các giọng nói được thiết đặt trước cho API chuyển văn bản thành giọng nói và tính năng Đọc To của ChatGPT. Trong một cuộc phỏng vấn với TechCrunch, Jeff Harris, một thành viên trong nhóm sản phẩm Voice Engine của OpenAI, cho biết mô hình được huấn luyện trên “một hỗn hợp các dữ liệu được cấp phép và dữ liệu công khai.” OpenAI thông báo cho tờ báo rằng mô hình chỉ sẽ có sẵn cho khoảng 10 nhà phát triển.

Sinh sản văn bản thành âm thanh AI là một lĩnh vực của AI sinh học đang tiếp tục phát triển. Mặc dù hầu hết tập trung vào âm thanh nhạc cụ hoặc âm thanh tự nhiên, nhưng ít công ty hơn tập trung vào sinh sản giọng nói, một phần do các câu hỏi mà OpenAI đã nêu. Một số công ty trong lĩnh vực này bao gồm Podcastle và ElevenLabs, những công ty này cung cấp công nghệ và công cụ clone giọng nói AI mà Vergecast đã khám phá vào năm ngoái.

Cùng lúc đó, Chính phủ Hoa Kỳ đang cố gắng hạn chế việc sử dụng không đạo đức công nghệ giọng nói AI. Tháng trước, Ủy ban Truyền thông Liên bang đã cấm các cuộc gọi rác sử dụng giọng nói AI sau khi mọi người nhận được cuộc gọi spam từ giọng nói AI được clon của Tổng thống Joe Biden.

Theo OpenAI, các đối tác của họ đã đồng ý tuân theo các chính sách sử dụng mà họ nói rằng sẽ không sử dụng Sinh sản Giọng nói để mạo danh người hoặc tổ chức mà không có sự đồng ý của họ. Nó cũng yêu cầu các đối tác phải có “sự đồng ý rõ ràng và được thông báo” của người nói gốc, không xây dựng cách cho người dùng cá nhân tạo ra giọng nói của riêng họ, và phải thông báo cho người nghe rằng các giọng nói được tạo ra bởi AI. OpenAI cũng đã thêm dấu ấn vào các đoạn clip âm thanh để truy xuất nguồn gốc và giám sát chặt chẽ cách âm thanh được sử dụng.

OpenAI đã đề xuất một số bước mà theo họ nghĩ có thể giới hạn rủi ro xung quanh các công cụ như vậy, bao gồm loại bỏ dần xác thực dựa trên giọng nói để truy cập vào các tài khoản ngân hàng, các chính sách bảo vệ việc sử dụng giọng nói của mọi người trong AI, giáo dục rộng rãi hơn về AI deepfakes, và phát triển hệ thống theo dõi nội dung AI.