Trí tuệ nhân tạo giúp người mù "xem" Facebook dễ hơn

Có trên 2,5 tỷ người sử dụng Facebook, trong đó không ít người khiếm thị. Để giúp những người khiếm thị này theo dõi được nội dung đăng trên Facebook, người ta dùng các ứng dụng đọc màn hình (screen reader). Ứng dụng này sẽ đọc những dòng status, comment… được đăng trên Facebook để người khiếm thị nghe. Thế nhưng hình ảnh thì sao? 5 năm qua, Facebook đã có những nỗ lực nhằm giúp người khiếm thị "xem" được hình ảnh trên mạng xã hội này.

Có trên 2,5 tỷ người sử dụng Facebook, trong đó không ít người khiếm thị. Để giúp những người khiếm thị này theo dõi được nội dung đăng trên Facebook, người ta dùng các ứng dụng đọc màn hình (screen reader). Ứng dụng này sẽ đọc những dòng status, comment… được đăng trên Facebook để người khiếm thị nghe. Thế nhưng hình ảnh thì sao? 5 năm qua, Facebook đã có những nỗ lực nhằm giúp người khiếm thị “xem” được hình ảnh trên mạng xã hội này.

AAT thế hệ mới cung cấp thông tin với nhiều chi tiết hơn

Khái niệm về văn bản thay thế

Mỗi hình ảnh được tải lên internet đều có một thuộc tính là Alt Text - viết tắt của Altenative Text, nghĩa là Văn bản thay thế. Alt Text là một dòng văn bản ngắn gọn, mô tả sơ về bức ảnh được tải lên đó. Ở buổi ban đầu của internet, tốc độ đường truyền rất chậm, việc tải một bức ảnh (vốn có kích thước file lớn hơn văn bản rất nhiều) lên mạng tốn rất nhiều thời gian, thậm chí không tải lên được. Khi ấy Alt Text vốn là văn bản nên sẽ được tải lên nhanh chóng hơn. Người xem sẽ đọc văn bản ấy để hình dung được về hình ảnh chưa/không được tải lên là gì.

Những người khiếm thị được hưởng lợi nhờ điều này. Bằng một trình đọc màn hình (screen reader) thích hợp, họ có thể nghe được mô tả về hình ảnh ấy thông qua việc đọc Alt Text.

Công nghệ ngày càng phát triển, tốc độ đường truyền ngày càng nhanh và việc tải lên một bức ảnh gần như đồng thời với văn bản. Người dùng không cần đọc Alt Text nữa vì hình ảnh đã hiện ra gần như đồng thời với văn bản. Kết quả là những người biên tập web hầu như không còn dùng tới nó nữa, hầu hết Alt Text đều bị để trống mà hoàn toàn không ảnh hưởng gì đến website cả. Các bạn có thể dễ dàng nhận thấy điều này khi chính mình là người tải ảnh lên Facebook mà không hề nhập vào Alt Text nào cả!

Đối với người bình thường thì điều này chẳng ảnh hưởng gì, nhưng đối với người khiếm thị thì đây là một thiệt thòi, vì họ sẽ không thể nghe mô tả về ảnh được nữa, đồng nghĩa với việc không “xem” được ảnh.

AAT của Facebook tạo văn bản thay thế tự động

Để giải quyết vấn đề trên, năm 2016 Facebook đã giới thiệu một công nghệ mới được gọi là văn bản thay thế tự động (Automatic Alternative Text, AAT). AAT được công nhận vào năm 2018 với Giải thưởng Thành tựu Helen Keller từ Quỹ Người mù Hoa Kỳ - sử dụng tính năng nhận dạng đối tượng để tạo mô tả về ảnh giúp những người khiếm thị có thể thưởng thức đầy đủ hơn trang Facebook mà họ đang xem.

Phiên bản đầu tiên của AAT được phát triển bằng cách sử dụng dữ liệu do con người gán nhãn, nhờ đó Facebook đã đào tạo một mạng
nơ-ron phức hợp sâu bằng cách sử dụng hàng triệu ví dụ theo kiểu có giám sát. Mô hình AAT này có thể nhận ra 100 khái niệm phổ biến như: “cây”, “núi” hay “ngoài trời”. Và vì những người sử dụng Facebook thường chia sẻ ảnh của bạn bè và gia đình, mô tả AAT cũng đã sử dụng các mô hình nhận dạng khuôn mặt để xác định mọi người (miễn là những người đó đồng ý chọn tham gia rõ ràng). Đối với những người khiếm thị, đây là một bước tiến lớn.

AAT tự động tạo Alt Text

AAT thế hệ mới cải thiện trải nghiệm ảnh cho người dùng

Phiên bản mới nhất của AAT thể hiện nhiều tiến bộ công nghệ giúp cải thiện trải nghiệm ảnh cho người dùng. Đầu tiên và quan trọng nhất, số lượng các khái niệm mà AAT có thể phát hiện và xác định một cách đáng tin cậy trong một bức ảnh tăng lên hơn 10 lần, mô tả cũng chi tiết hơn, với khả năng xác định các hoạt động, địa danh, loại động vật… Ví dụ: “Có thể là ảnh tự chụp của 2 người, ngoài trời, Tháp nghiêng Pisa”.

AAT thế hệ mới có thể đưa thông tin về vị trí đặt ảnh và kích thước tương đối của các yếu tố trong ảnh. Vì vậy, thay vì mô tả nội dung của bức ảnh là “Có thể là hình ảnh của 5 người”, Facebook sẽ xác định rằng có hai người ở giữa bức ảnh và ba người khác nằm rải rác về phía rìa, ngụ ý rằng hai người ở trung tâm là trọng tâm. Hoặc, thay vì chỉ mô tả một phong cảnh đáng yêu với “Có thể là một ngôi nhà và một ngọn núi”, AAT sẽ nhấn mạnh rằng ngọn núi là đối tượng chính trong một cảnh dựa trên độ lớn của nó so với ngôi nhà ở góc.

Tổng hợp lại, những tiến bộ này giúp người dùng bị mù hoặc khiếm thị hiểu rõ hơn về những gì có trong ảnh do gia đình và bạn bè của họ đăng - và trong ảnh của chính họ - bằng cách cung cấp nhiều thông tin hơn và chi tiết hơn.

Trí tuệ nhân tạo (AI) góp phần cải tiến AAT

Với sự hỗ trợ của AI, có thể làm được nhiều hơn và bước hợp lý tiếp theo là mở rộng số lượng các đối tượng có thể nhận biết và tinh chỉnh cách mô tả chúng.

Đối với lần cải thiện AAT mới nhất này, Facebook đã tận dụng một mô hình được đào tạo dựa trên dữ liệu được giám sát chủ yếu dưới dạng hàng tỷ hình ảnh Instagram công khai và thẻ hashtag. Để các mô hình này hoạt động tốt hơn cho mọi người, Facebook đã tinh chỉnh chúng sao cho dữ liệu lấy được từ hình ảnh trên tất cả các khu vực địa lý được quy về mẫu chuẩn và sử dụng bản dịch các thẻ hashtag sang nhiều ngôn ngữ. Facebook cũng đánh giá các khái niệm của mình theo trục giới tính, màu da và tuổi tác. Các mô hình kết quả vừa chính xác hơn, vừa bao gồm cả văn hóa và nhân khẩu học, ví dụ, chúng có thể xác định các đám cưới trên khắp thế giới (một phần) dựa trên trang phục truyền thống thay vì chỉ dán nhãn cho ảnh có váy cưới trắng.

Nó cũng giúp sử dụng lại các mô hình học máy một cách dễ dàng hơn, như là điểm khởi đầu để đào tạo về các nhiệm vụ mới - một quá trình được gọi là học chuyển giao. Điều này cho phép tạo ra các mô hình xác định những khái niệm như di tích quốc gia, các loại thực phẩm (như cơm chiên và khoai tây chiên) và ảnh tự chụp. Đây là những việc không thể thực hiện được trong quá khứ.

Để có được thông tin phong phú hơn như vị trí và số lượng, Facebook đã tạo một máy dò đối tượng hai giai đoạn, được gọi là Faster R-CNN, sử dụng Detectron2, một nền tảng mã nguồn mở để phát hiện và phân đoạn đối tượng do Facebook AI Research phát triển. Facebook đã đào tạo các mô hình để dự đoán vị trí và nhãn ngữ nghĩa của các đối tượng trong hình ảnh. Các kỹ thuật đào tạo đa nhãn/đa tập dữ liệu đã giúp mô hình đáng tin cậy hơn với số lượng nhãn lớn hơn.

AAT mới nhận dạng đáng tin cậy hơn 1.200 khái niệm - gấp hơn 10 lần so với phiên bản gốc năm 2016. Khi tham khảo ý kiến của những người sử dùng ứng dụng đọc màn hình về AAT và cách tốt nhất để cải thiện nó, họ đã nói rõ rằng độ chính xác là điều tối quan trọng, vì vậy, Facebook chỉ đưa vào những khái niệm mà họ có thể đảm bảo các mô hình được đào tạo bài bản đáp ứng một mức độ chính xác cao nhất định.

Không những mô tả nhiều hơn, AAT còn mô tả tốt hơn. Facebook đã phỏng vấn những người khiếm thị phải dùng trình đọc màn hình về những gì và lúc nào họ muốn nghe. Họ cho biết muốn biết thêm thông tin khi một hình ảnh là của bạn bè hoặc gia đình và ít hơn khi không phải. AAT mới được thiết kế để cung cấp mô tả ngắn gọn cho tất cả các ảnh theo mặc định nhưng mô tả chi tiết hơn đối với các ảnh được quan tâm cụ thể.

Khi người dùng chọn tùy chọn sau, một bảng điều khiển được hiển thị, mô tả toàn diện hơn về nội dung của ảnh, bao gồm số lượng các yếu tố trong ảnh, một số yếu tố có thể chưa được đề cập trong mô tả mặc định. Mô tả chi tiết cũng bao gồm thông tin vị trí đơn giản - trên cùng/giữa/dưới cùng hoặc trái/giữa/phải - và so sánh mức độ nổi bật tương đối của các đối tượng, được mô tả là “chính”, “phụ”.

AAT sử dụng cụm từ đơn giản cho mô tả mặc định của nó thay vì một câu dài, hoa mỹ. Người dùng có thể đọc và hiểu mô tả một cách nhanh chóng - và nó tự cho phép dịch để tất cả các mô tả văn bản thay thế có sẵn bằng 45 ngôn ngữ khác nhau, đảm bảo rằng AAT hữu ích cho mọi người trên khắp thế giới.

Phạm Hoài Nhân

(Theo Facebook)