Ở tuổi 25, Phan Nguyễn Hoàng Long trở thành đồng tác giả chính của một nghiên cứu quan trọng về trí tuệ nhân tạo, vừa được công bố trên tạp chí Nature. Công trình giới thiệu bộ đánh giá học thuật cấp chuyên gia, được xem là “bài thi khó nhất thế giới” dành cho các mô hình AI hiện nay.
- Hà Nội phát hiện hơn 60 tấn lòng lợn bốc mùi tại cơ sở chế biến
- 7 phương tiện va chạm trên đường Lê Trọng Tấn, 3 người bị thương
- Ngăn chặn tai nạn: Ba nam sinh lớp 8 dùng gạch chặn xe tải
Dấu ấn khoa học trên tạp chí danh tiếng hơn 150 năm
Ngày 28/1, tạp chí Nature đăng tải bài báo khoa học với tiêu đề “A benchmark of expert-level academic questions to assess AI capabilities”. Nghiên cứu do Trung tâm An toàn Trí tuệ nhân tạo (CAIS) phối hợp thực hiện, trong đó Phan Nguyễn Hoàng Long là đồng tác giả chính và tham gia dẫn dắt dự án.
Nature là tạp chí khoa học đa ngành uy tín, xuất bản từ năm 1869, với tỷ lệ chấp thuận bài đăng khoảng 8%. Việc có công trình xuất hiện trên Nature được xem là cột mốc quan trọng trong sự nghiệp của bất kỳ nhà khoa học nào.
Chia sẻ về thành tựu này, Hoàng Long cho biết đây là kết quả của hơn 5 năm theo đuổi nghiên cứu AI, với mong muốn tạo ra những đóng góp có giá trị và tác động toàn cầu.
Humanity’s Last Exam – thước đo mới cho trí tuệ nhân tạo
Bài báo trình bày kết quả dự án Humanity’s Last Exam (HLE), bộ chuẩn nhằm đánh giá kiến thức và năng lực suy luận ở trình độ nghiên cứu chuyên sâu của các mô hình ngôn ngữ lớn như ChatGPT, Gemini hay Grok.
HLE gồm 2.500 câu hỏi chuyên môn thuộc hơn 100 lĩnh vực, từ toán học, khoa học tự nhiên đến khoa học xã hội và nhân văn. Hơn 1.000 giáo sư, chuyên gia đến từ 500 trường đại học và tổ chức nghiên cứu hàng đầu thế giới như Harvard, MIT, Stanford, Oxford hay Princeton đã tham gia xây dựng bộ câu hỏi này.
Dự án có sự tham gia của Elon Musk và các “ông lớn” AI
Dự án HLE được khởi xướng từ ý tưởng của tỷ phú Elon Musk, do CAIS phối hợp cùng Scale AI triển khai từ năm 2024. Alexandr Wang, nhà sáng lập Scale AI, đồng thời là cố vấn và điều hành phòng thí nghiệm siêu trí tuệ nhân tạo của Meta, tham gia hỗ trợ dự án.
New York Times từng nhận định HLE khó đến mức “khi AI vượt qua, con người cần phải cảnh giác”. Trên thực tế, bộ chuẩn này đang được sử dụng rộng rãi bởi các công ty AI hàng đầu như OpenAI, DeepMind và xAI. Tháng 7/2025, xAI đã dùng HLE trong quá trình phát triển Grok 4, và Elon Musk đánh giá đây là bài kiểm tra “cực kỳ khó”.
Góp phần định hình chính sách và an toàn AI
Theo Hoàng Long, HLE không chỉ phục vụ nghiên cứu kỹ thuật mà còn tạo ra điểm tham chiếu chung cho các nhà hoạch định chính sách. Thông qua đó, giới quản lý có thêm cơ sở để đánh giá mức độ phát triển của AI, nhận diện rủi ro tiềm ẩn và xây dựng khung quản lý phù hợp.
Nhà nghiên cứu trẻ cho biết sẽ tiếp tục theo đuổi lĩnh vực an toàn trí tuệ nhân tạo, bởi đây là yếu tố then chốt quyết định tác động lâu dài của AI đối với xã hội và con người.
Theo: Báo VnExpress
