Các mô hình AI tạo sinh đang ngày càng được đưa vào môi trường chăm sóc sức khỏe — trong một số trường hợp, có lẽ là hơi vội vàng. Những người áp dụng sớm tin rằng chúng sẽ mở khóa khả năng hiệu quả cao hơn đồng thời tiết lộ những hiểu biết mà nếu không có thể bị bỏ lỡ. Trong khi đó, những người chỉ trích chỉ ra rằng các mô hình này có những khuyết điểm và định kiến có thể góp phần vào kết quả sức khỏe tồi tệ hơn.
Nhưng liệu có phương pháp định lượng nào để biết một mô hình có hữu ích hay có hại khi được giao nhiệm vụ như tóm tắt hồ sơ bệnh nhân hoặc trả lời các câu hỏi liên quan đến sức khỏe không?
Hugging Face, công ty khởi nghiệp về AI, đề xuất một giải pháp trong bải kiểm tra chuẩn mực mới được phát hành có tên Open Medical-LLM. Được tạo ra với sự hợp tác của các nhà nghiên cứu tại tổ chức phi lợi nhuận Open Life Science AI và Nhóm Xử lý Ngôn Ngữ Tự Nhiên của Đại học Edinburgh, Open Medical-LLM nhằm mục đích chuẩn hóa việc đánh giá hiệu suất của các mô hình AI tạo sinh trên một loạt các nhiệm vụ liên quan đến y tế.
Open Medical-LLM không phải là một chuẩn mực từ đầu, mà thực chất là sự kết hợp của các bộ kiểm tra hiện có — MedQA, PubMedQA, MedMCQA và vân vân — được thiết kế để thăm dò các mô hình về kiến thức y học chung và các lĩnh vực liên quan, như giải phẫu, dược lý, di truyền học và thực hành lâm sàng. Chuẩn mực bao gồm các câu hỏi trắc nghiệm và mở cần có khả năng lý luận và hiểu biết về y học, lấy cảm hứng từ các bài thi cấp phép y khoa của Mỹ và Ấn Độ và ngân hàng câu hỏi thi sinh học đại học.
"[Open Medical-LLM] cho phép các nhà nghiên cứu và thực hành nhận biết được ưu nhược điểm của các phương pháp khác nhau, thúc đẩy sự tiến bộ trong lĩnh vực và cuối cùng đóng góp vào việc chăm sóc và kết quả bệnh nhân tốt hơn," Hugging Face đã viết trên một bài đăng blog.
Hugging Face đang đặt chuẩn mực này như một "sự đánh giá vững chắc" đối với các mô hình AI tạo sinh hướng đến chăm sóc sức khỏe. Nhưng một số chuyên gia y tế trên mạng xã hội cảnh báo không nên quá tin tưởng vào Open Medical-LLM, khiến cho việc triển khai trở nên thiếu thông tin.
Trên X, Liam McCoy, một bác sĩ thực hành chuyên khoa thần kinh tại Đại học Alberta, chỉ ra rằng khoảng cách giữa "môi trường giả định" của việc trả lời câu hỏi y khoa và thực hành lâm sàng thực tế có thể rất lớn.
Clémentine Fourrier, nhà khoa học nghiên cứu của Hugging Face, người đã đồng tác giả bài đăng blog, đồng ý.
"Các bảng xếp hạng này chỉ nên được sử dụng như một ước lượng đầu tiên để xem xét [mô hình AI tạo sinh] nào nên được khám phá cho một trường hợp sử dụng cụ thể, nhưng sau đó một giai đoạn kiểm tra sâu hơn luôn cần thiết để xem xét giới hạn và tính liên quan của mô hình trong điều kiện thực tế," Fourrier trả lời trên X. "Các mô hình y tế [nên] tuyệt đối không được sử dụng một mình bởi bệnh nhân, mà thay vào đó nên được huấn luyện để trở thành công cụ hỗ trợ cho các bác sĩ."