Yếu tố 2: Scale up – Điều gì xảy ra khi khối lượng dữ liệu cần ghi nhãn tăng?

Yếu tố thứ hai cần quan tâm trong việc ghi nhãn dữ liệu là mở rộng quy mô. Khả năng thay đổi quy mô lực lượng lao động linh động, dựa trên nhu cầu dự án và tình hình kinh doanh, mà không ảnh hưởng đến chất lượng dữ liệu.

Ghi nhãn dữ liệu là một quá trình tốn thời gian và thậm chí còn nhiều hơn trong học máy, đòi hỏi phải lặp lại và phát triển các tính năng dữ liệu khi đào tạo và điều chỉnh các mô hình để cải thiện chất lượng dữ liệu và hiệu suất mô hình. Khi độ phức tạp và khối lượng dữ liệu tăng lên, thì nhu cầu ghi nhãn cũng đồng thời lớn hơn. Ví dụ như chú thích video đặc biệt tốn nhiều công sức: mỗi giờ dữ liệu video được thu thập mất khoảng 800 giờ để chú thích. Một video dài 10 phút chứa khoảng từ 18.000 đến 36.000 khung hình, trung bình 30-60 khung hình mỗi giây.

 

5 bước để scale-up công việc ghi nhãn dữ liệu

1.Dự trù lực lượng lao đông cần thiết.

Một dịch vụ ghi nhãn dữ liệu có thể cung cấp quyền sử dụng một lượng lớn nhân công. Crowdsourcing cũng có khả năng cung ứng tương tụ, nhưng qua nghiên cứu từ chuyện gia phát triển công nghệ Hivemind  chỉ ra rằng freelancer cung cấp dữ liệu chất lượng thấp hơn so với các nhóm được quản lý trên cùng một cơ sở dữ liệu.

Lựa chọn tốt nhất là luôn sử dụng cùng một nhóm nhận viên gán nhãn dữ liệu , bởi vì sự quen thuộc của họ với các quy tắc kinh doanh, bối cảnh và các trường hợp đặc biệt tăng lên, giúp chất lượng dữ liệu được cải thiện theo thời gian. Họ cũng có thể đào tạo những người mới tham gia nhóm. Điều này đặc biệt hữu ích với ghi nhãn dữ liệu cho các dự án máy học, trong đó chất lượng và tính linh hoạt để lặp lại là rất cần thiết.

2.Hướng tới sự linh hoạt

Linh hoạt trong sự thay đổi tăng lên hoặc giảm xuống của khối lượng dữ liệu. Công việc gán nhãn dữ liệu có thể phải thực hiện dựa trên thời gian thực, tùy thuộc vào khối lượng của dữ liệu đầu vào được sinh ra trên thực tế . Một số ngành hàng đặc thù có dữ liệu thay phát sinh không đều mà thay đổi theo từng thời điểm trong năm, như mùa du lịch hoặc lễ tết. Hoặc ra mắt một sản phẩm mới cũng thường gây đột biết về tăng trưởng lượng dữ liệu. Bạn sẽ muốn một lực lượng lao động có thể điều chỉnh quy mô dựa trên nhu cầu của bạn.

3.Lựa chọn công cụ phù hợp

Cho dù là mua ngoài hoặc tự phát triển, công cụ làm giàu dữ liệu được chọn sẽ ảnh hưởng đáng kể đến khả năng mở rộng quy mô ghi nhãn dữ liệu. Luôn nhớ rằng, đây là một quá trình liên tục phát triển, các nhiệm vụ ghi nhãn dữ liệu ngày hôm nay có thể khác hoàn toàn trong một vài tháng, vì  vậy hãy lựa chọn công cụ phù hợp để tranh bạn bị khóa vào một cách thức duy nhất trong tương lại.

Cho dù đang phát triển hay hoạt động ở quy mô nhất định, hãy luôn chọn một công cụ cho phép linh hoạt thay đổi các tính năng dữ liệu, quy trình ghi nhãn và dịch vụ ghi nhãn dữ liệu. Các công cụ có sẵn trên thị trường cho phép kiểm soát nhiều hơn về quy trình làm việc, tính năng, bảo mật và tích hợp so với các công cụ được xây dựng nội bộ.

4.Đo lường năng suất dán dữ liệu.

Năng suất có thể được đo lường bằng nhiều cách khác nhau, nhưng theo kinh nghiệm của chúng tôi,  ba biện pháp dưới đây cung cấp một cái nhìn hữu ích về năng suất của người lao động; 1) khối lượng công việc hoàn thành, 2) chất lượng công việc (độ chính xác cộng với tính nhất quán) và 3) sự tham gia của nhân công.

Về phía nhân công, các quy trình mạnh mẽ dẫn đến năng suất cao hơn. Kết hợp công nghệ, nhân công và huấn luyện rút ngắn thời gian ghi nhãn, tăng khối lượng và giảm thiểu thời gian chết. Chất lượng dữ liệu cao hơn khi được chia cho các nhóm nhỏ, đào tạo họ về các nhiệm vụ và quy tắc kinh doanh và cho họ thấy chất lượng công việc trông như thế nào.

Trưởng nhóm khuyến khích sự hợp tác, học hỏi, hỗ trợ và xây dựng cộng đồng. Các kỹ năng và thế mạnh của nhận công được biết đến và đánh giá cao bởi các trưởng nhóm, những người cung cấp cơ hội cho người lao động phát triển chuyên môn. Phương pháp chia nhóm này, kết hợp với môi trường công cụ thông minh, dẫn đến việc ghi nhãn dữ liệu chất lượng cao.

5.Hợp lý hóa truyền thông giữa các nhóm ghi nhãn dự án và dữ liệu của bạn.

Trao đổi thông tin liên tục và có tổ chức với nhóm dán nhãn dữ liệu giúp tăng khả năng scale-up. Để thực hiện việc thay đổi diễn ra hiệu quả, một vòng tròn khép kín khi truyền đạt và nhận phản hồi thông tin là điều cần thiết. Chẳng hạn như thay đổi quy trình ghi nhãn hoặc lặp lại các tính năng dữ liệu.

Khi ghi nhãn dữ liệu trực tiếp gia tăng cho các tính năng sản phẩm hoặc trải nghiệm của khách hàng, thời gian phản hồi của người gắn nhãn cần phải nhanh và giao tiếp hiệu quả là chìa khóa mấu chốt.