Чому нам потрібні етичні рамки та регулювання для ШІ?

Подробиці

В останні роки організації часто цікавляться наслідками зараження даних для безпеки, що стало серйозною проблемою для організацій, що працюють із системами штучного інтелекту (ШІ) та машинного навчання (МН). Коли ви говорите про методи та мотиви зловмисників, зараження даних, як правило, є відносно акуратною і чітко визначеною категорією.

Але якщо ви розглядаєте насамперед вплив на ваші системи, як це зазвичай буває у командах кібербезпеки, буває складно відразу відрізнити навмисні атаки від ненавмисних наслідків того, як розроблені системи ШІ або звідки беруться дані, на яких вони навчаються. У цьому блозі розглядаються деякі системні проблеми, від яких страждають системи ШІ/МН, з метою пояснити, чому етичні рамки та нормативне регулювання важливі для забезпечення ефективного та правильного функціонування ШІ.

Як ШІ може помилятися за відсутності зловмисників?

Можна створити консультативну систему ШІ, яка буде навчатися на реальних та точних даних, але в результаті отримає неетичні результати. Як приклад можна навести предиктивний текст. Перші моделі ШІ для прогнозування тексту навчалися на документах, що знаходяться у відкритому доступі, зазвичай оцифрованих газетах і книгах, що зберігаються в Бібліотека Конгресу США або інших архівних бібліотеках, таких як Національний архів Австралії. Вони “читали” текст і будували моделі на основі слів, що повторюються, розташованих поруч один з одним. Перші бібліотеки предиктивного тексту, що використовувалися в смартфонах, мимоволі стали певною мірою сексистськими та расистськими. Наприклад, під час написання слова “інженер” модель генерувала терміни з чоловічим кодом, оскільки текст тієї епохи відбивав переважні погляди на той час. Після того, як проблема була виявлена, моделі були скориговані для усунення цього джерела упередженості.

Ще одним способом проникнення упередженості та небажаних елементів у моделі ШІ є краудсорсинг наборів даних. Багато даних, які використовуються для навчання ШІ, насправді надходять від людей часто через краудсорсингові платформи, такі як Amazon Mechanical Turk. ImageNet – приклад візуальної бази даних, у якій для маркування безліч зображень використовувався краудсорсинг, що призвело до появи випадків расової упередженості (а також деяких відверто расистських висловлювань), які згодом могли поглинути моделі ШІ. Незалежно від того, чи беруться навчальні дані із загальнодоступних документів або за допомогою краудсорсингу, необхідна прозорість, щоб можна було виявити та усунути системні проблеми, що ховаються в наборах даних.

Щоб зрозуміти, наскільки серйозним може бути вплив на людину скомпрометованих консультаційних та автоматизованих систем прийняття рішень, розглянемо винесення кримінальних вироків. У всіх демократичних країнах з високим рівнем індивідуальних свобод та підзвітності існує загальна тема перевантажених роботою судів нижчої інстанції (наприклад, світових судів, судів першої інстанції, районних судів), де судді та магістрати зазнають надзвичайного навантаження під час розгляду справ. У таких сценаріях значний ступінь операційної ефективності можна отримати за рахунок скорочення часу, необхідного для вироку. Коли суддя чи магістрат має винести вирок після винесення вердикту, йому доводиться враховувати законодавчі зобов’язання, прецеденти та очікування суспільства, а також тяжкість злочину, що потребує часу. У зв’язку з цим багато юрисдикцій вдаються до допомоги штучного інтелекту, який вивчає інформацію у справі, проганяє її через моделі і потім дає рекомендації щодо вироку.

На жаль, як і мовні моделі, ці системи навчаються на старих і довгих масивах даних і часто дають рекомендації, що відображають менш освічені часи, рекомендуючи більш тривалі та суворі вироки для людей певних етнічних та демографічних груп. Оскільки судді перевантажені роботою, а людина схильна вірити машині більше, ніж усьому решті, це призвело до того, що судді почали застосовувати результати роботи машин, а не свої власні судження, що призвело до винесення досить расистських і непомірно високих вироків. Проблему посилює відсутність прозорості щодо того, як працюють моделі ШІ та на яких даних вони навчаються.

Залишилось розглянути останню проблему: неідеальний цикл. У цьому випадку ШІ використовується для отримання результату, який сам по собі є прийнятним, як це роблять сучасні генеративні інструменти ШІ; однак коли цей результат використовується для навчання інших моделей ШІ, це може призвести до ескалації та посилення небажаних ефектів, що у кращому разі призведе до безглуздих результатів, а гіршому – до руйнівних. У випадку з розглянутою нами системою винесення вироків, якщо це не контролюватиметься, майбутні моделі сприятимуть дискримінації та винесенню непомірно великих вироків. Якщо генератор зображень ШІ навчається на інших зображеннях, згенерованих ШІ, це може призвести до того, що наступні генерації виглядатимуть однаково чи безглуздо.

Цей тип деградації моделей ШІ може бути особливо сильним в організаціях, які навчають моделі на власних даних клієнтів, використовують моделі для створення синтетичних даних і потім застосовують навчання до отриманих результатів. Хоча безглуздість часто можна швидко виявити, більш підступними є неточні або результати, що відхиляються, які важко виявити, але які мають значний вплив на подальше прийняття рішень або аналіз. Наприклад, фінансова установа може моделювати прибутковість клієнтів за допомогою набору моделей, які використовуються іншими моделями для створення синтетичних клієнтів, які потім використовуються для створення моделей зміни прибутковості установи або ймовірності того, що конкретні клієнти будуть працювати з часом. У такому випадку клієнтам може бути відмовлено у доступі класичним способом “комп’ютер сказав “ні””, при цьому ніхто не знає, чому комп’ютер сказав “ні”.

Яке це стосується кібербезпеки?

Коли я говорю на цю тему, люди зазвичай зупиняють мене. “Добре, це жахливо, – але яке відношення це має до кібербезпеки?” На жаль, до безпеки це має *абсолютне* відношення.

Ми все більше залежимо від ШІ у всіх сферах кібербезпеки. Почалося все з шкідливого ПЗ (перехід від сигнатур до поведінкового та функціонального аналізу), потім це був аналіз журналів (перехід від кореляції до виявлення аномалій та аналізу поведінки користувачів), а тепер це все. Моделі машинного навчання та штучний інтелект вирішують, чи варто вам отримати доступ до ресурсу, чи представляє користувач підвищений ризик, чи безпечний доступ до ресурсу і чи зловмисник перебуває не тільки у ваших системах, а й у ваших даних. Ми не можемо обійтися без ШІ, оскільки це єдиний спосіб масштабувати наші операції на асиметричному полі кібербою. У кожному новому програмному забезпеченні чи сервісі буде присутній елемент ШІ або МН; у цьому сенсі вони будуть схожі на те, чим хмара була для програмного забезпечення та додатків 15 років тому. Додатки поступово перейшли в хмару, а ті, які не перейшли, застосовували принципи хмари у своїх приватних середовищах. У кіберпросторі ми перейдемо від використання ШІ у захисних методах та методах виявлення до його застосування у протиборстві.

Але все ж таки, як ці проблеми впливають безпосередньо на кібербезпеку? Знову ж таки, всі інструменти, що використовуються в кібернетичних цілях, схильні до небезпек, описаних вище. Наприклад, уявіть сценарій, в якому ви навчили штучний інтелект, що вивчає інциденти втрати даних і сигнали про поведінку користувачів. Як навчальні дані будуть використовуватися дані з історії вашої організації; чи були ці дані випадково отруєні погано налаштованими політиками? Що станеться, якщо ваш ШІ блокуватиме доступ законних користувачів до систем або відмовлятиме у доступі до ресурсів через те, що навчальна модель потрапила в неідеальний цикл, що посилює важливість викидів? Що станеться у сценарії, коли ваш ШІ невірно вирішить, що співробітник домагається когось чи ризикує нашкодити собі?

Що з цим робити?

Мета цього блогу – допомогти вам зрозуміти, як виникають ненавмисні упередження та отруєння даних і наскільки серйозними можуть бути наслідки для людини, коли ці проблеми залишаються поза увагою. А також чому етичні рамки та регулювання необхідні для ШІ, а не просто відволікають увагу організацій, коли вони переслідують свою кінцеву мету. Насамкінець поговоримо про те, що робиться в цій галузі.

Етичні рамки

Розробка кращих практик етики в галузі ШІ – складне завдання, оскільки технологія розвивається дуже швидко, але низка організацій державного та приватного секторів взяла на себе відповідальність за створення рамок та інформаційних центрів з етичних питань. Ось невелика вибірка того, що існує:

Нормативне регулювання

У той час як робота над етичними основами може здатися безсистемною, реальне регулювання ШІ перебуває у зародковому стані. Закон ЄС про ШІ– один із перших великих законодавчих актів, що встановлюють нормативне регулювання додатків ШІ. У США президент Байден нещодавно видав указ про створення стандартів та керівних принципів для розробки та використання ШІ. Це найширший набір правил США, заснований на деяких законах, прийнятих американськими штатами щодо використання ШІ, і сам по собі він заслуговує на аналіз та вивчення.

Крім того, Всесвітня організація охорони здоров’я запропонувала принципи регулювання, що стосуються саме охорони здоров’я. Зрозуміло, це не говорячи вже про те, як впливають на використання штучного інтелекту існуючі правила безпеки та конфіденційності даних, такі як GDPR.

Майбутнє за регулюванням

Уся ця активність, ймовірно, викличе зростання регулювання у великих економіках і торгових блоках, що на деякий час може призвести до дедалі більш розрізненого нормативного ландшафту принаймні на даний момент.

Можна з упевненістю передбачити, що нинішня ера “Дикого Заходу” ШІ та МН швидко згасне, залишивши організаціям значне навантаження щодо дотримання нормативних вимог, коли вони захочуть скористатися перевагами цієї технології.

Розібратися з усім цим буде непросто, однак ми повинні розуміти, наскільки важливим є підхід до ШІ з точки зору етичного проектування та дотримання нормативних вимог, якщо ми хочемо захистити безліч людей, користувачів та інших людей, на яких впливають ці системи.

Джерело: Why Do We Need Ethical Frameworks and Regulation for AI?