Chất lượng dữ liệu thu được càng cao thì mức tiêu thụ năng lượng của các mô hình AI càng bền vững (Ảnh: Adobe Stock / NongAsimo)
Càng nhiều càng tốt Đó là câu thần chú khi nói đến đào tạo AI. Tính hữu ích của hệ thống AI không phải là luồng dữ liệu quyết định mà là chất lượng của dữ liệu.Ít hơn có thể được nhiều hơn. Một sự nhận thức dần dần diễn ra. Đặc biệt là Smart Data giúp giảm đáng kể mức tiêu thụ điện năng của các mô hình AI. Điều này được thể hiện qua những dự án đầu tiên và những ứng dụng thực tế của Green AI .
Tại sao AI lại cần nhiều năng lượng như vậy?
Đó cũng có vẻ là một nhu cầu cấp thiết. Alex de Vries thuộc Trường Kinh doanh và Kinh tế VU Amsterdam đã tính toán rằng mức tiêu thụ điện do AI có thể tăng lên 85-134 terawatt giờ (TWh) điện mỗi năm vào năm 2027. “AI có thể sử dụng nhiều điện như vậy . như Hà Lan.” nhà khoa học dữ liệu giải thích. Dự báo của ông dựa trên doanh số bán chip dự kiến từ hãng dẫn đầu thị trường Nvidia, công ty mà de Vries cho biết cung cấp khoảng 95% bộ vi xử lý cần thiết cho các mô hình AI.
Theo các nhà nghiên cứu tại Đại học Colorado Riverside và Đại học Texas ở Arlington, chỉ riêng việc đào tạo GPT-3 đã tiêu thụ khoảng 700.000 lít nước ngọt. Vì vậy, GPT-3 ngấu nghiến một chai nước 500ml cho cuộc trò chuyện hỏi đáp 10-50.
Ewald Munz, người đứng đầu dữ liệu lớn về sản xuất, ô tô và đào tạo mô hình bền vững của Splunk cho biết: “Trí tuệ nhân tạo đang thiếu năng lượng rất lớn và do đó tạo ra lượng khí thải CO2 rất lớn” ChatGPT không chỉ được tìm thấy trong máy móc mà tỷ lệ các hệ thống dựa trên AI cũng tăng lên.
Chất lượng dữ liệu có liên quan gì đến AI xanh?
Munz cho biết: “Dữ liệu là nền tảng của AI. Hiệu suất của AI có liên quan chặt chẽ đến chất lượng dữ liệu, bối cảnh dữ liệu và mức độ liên quan của dữ liệu” . “Vì vậy, chất lượng dữ liệu kém dẫn đến mô hình AI kém.” Do đó, chất lượng cần phải được cải thiện để cân bằng giữa độ chính xác và hiệu quả (năng lượng) của các mô hình.
Munz giải thích: “Một cách để đảm bảo các mô hình AI chỉ được cung cấp dữ liệu phù hợp là phải có hướng dẫn rõ ràng về AI trong công ty. Điều này cung cấp một quy trình ra quyết định minh bạch giúp xác định dữ liệu nào nên và không nên sử dụng. đã sử dụng”.
Nhưng điều gì đặc trưng chính xác cho dữ liệu đào tạo chất lượng cao? Chất lượng dữ liệu bị ảnh hưởng bởi nhiều yếu tố, nhưng quan trọng nhất là phương pháp thu thập. Để có được dữ liệu chất lượng cao, cần phải có quy trình đăng ký chính xác. Trong bước tiếp theo, tập hợp con có những gì cần thiết để trở thành dữ liệu huấn luyện bậc nhất phải được tìm thấy trong dữ liệu chưa được sắp xếp thu được theo cách này, nghĩa là, nó chứa chính xác thông tin mà AI- Nghệ thuật tuyệt vời là lọc các tính năng và mẫu rất thông tin này ra khỏi lượng dữ liệu theo tỷ lệ phù hợp.
Xác định các phần lưu trữ dữ liệu cũ bằng AI
Các nhà nghiên cứu của Fraunhofer IPK cho thấy cách thức này có thể hoạt động trong thực tế trong một dự án EIBA nơi các bộ phận ô tô cũ được xác định và phân tích để tái chế chúng. Số bộ phận phải được nhận dạng rõ ràng ngay cả đối với các bộ phận bẩn, mòn và sơnMạng lưới thần kinh và thuật toán thị giác máy cần hoạt động Nghe có vẻ như phải đào tạo rất nhiều, không nhất thiết phải như Fraunhofer IPK cho thấy.
Khi thu thập dữ liệu, các nhà nghiên cứu đã chọn cách tiếp cận đa phương thức nhằm truy cập có ý thức nhiều nguồn dữ liệu lấy cảm hứng từ nhận thức của con người, trong đó một số nguồn sẽ xoay, lật và được xem từ các góc khác nhau để ghi lại các đặc tính quang học”, nhà nghiên cứu Clemens Briese của Fraunhofer IPK giải thích, “Trong Ngoài ra, hoạt động kinh doanh hiện tại và dữ liệu giao hàng từ các quy trình hậu cần và tài liệu”.
Dữ liệu được ghi lại bằng các camera lắp đặt tại nơi làm việc trong quá trình hoạt động liên tục của nhà cung cấp dịch vụ đối với nền kinh tế tuần hoàn, loại bỏ nhu cầu đào tạo chuyên sâu trước đó. Đối tác nghiên cứu Paul Koch cho biết: “Chúng tôi không mong đợi chất lượng dữ liệu hình ảnh thường kém . “Nhiều bức ảnh cho thấy bàn tay, cốc cà phê hoặc các đồ vật khác, thành phần này đã bị cắt, bóng hoặc chỉ hiển thị màn hình trống.” Điều này có nghĩa là một phần đáng kể dữ liệu không chỉ không thể sử dụng được cho việc học mà thậm chí còn có hại cho nó. . Nó trở nên rõ ràng rất nhanh chóng. Cần ít hình ảnh hơn nhưng chính xác hơn. “Chúng tôi đã phát triển một phương pháp lại sử dụng AI và số liệu thống kê để đánh giá chất lượng hình ảnh”.
“Thách thức là tìm ra sự cân bằng phù hợp giữa việc giảm dữ liệu và thu thập thông tintìm,” Koch chỉ ra, “Nếu quá nhiều dữ liệu bị lọc, hiệu suất của AI sẽ bị ảnh hưởng.” Để ngăn điều này xảy ra, các nhà nghiên cứu đã sử dụng một dạng máy học không giám sát để nhóm dữ liệu không được gắn nhãn chỉ dựa trên sự tương đồng: lượng dữ liệu đào tạo đã giảm 60%, hơn 98% phụ tùng ô tô cũ được xác định chính xác và mức tiêu thụ năng lượng giảm đáng kể; 8,8 kg CO2 tương đương đã được tiết kiệm cho một bộ phận được phân loại chính xác và sau đó được sửa chữa.
Làm thế nào AI có thể trở nên xanh hơn ở quy mô lớn?
Munz nêu tên các đòn bẩy khác để làm cho AI xanh hơn. “Điều quan trọng là phải mang lại sự minh bạch cho lượng khí thải CO2 của AI.” Điều này đòi hỏi các công cụ phân tích dữ liệu thời gian thực hỗ trợ sự đa dạng và khối lượng dữ liệu tạo nên lượng khí thải carbon. Điều này cho phép các vị trí trung tâm dữ liệu được tối ưu hóa để chuyển khối lượng công việc tiêu tốn nhiều năng lượng sang các trung tâm. có cường độ carbon thấp hơn. Ngoài ra, thời gian của khối lượng công việc có thể được tối ưu hóa để thực hiện các hoạt động tính toán chuyên sâu, không nhạy cảm với thời gian; khi tỷ trọng năng lượng tái tạo cao nhất Cuối cùng nhưng không kém phần quan trọng, phân tích có thể được sử dụng để thay thế cụ thể phần cứng tiêu thụ quá nhiều năng lượng.
Thông qua tất cả, AI sẽ vẫn đói dữ liệu. “AI phức tạp nhất có thể thay thế được, nhưng dữ liệu cơ bản thì không”, Munz nhấn mạnh. Ví dụ: Google phát hành mạng nơ-ron TensorFlow nhưng sẽ không bao giờ tiết lộ dữ liệu đằng sau nó; “Lợi thế cạnh tranh là cóvới dữ liệu rõ ràng chứ không phải với chính AI.”