Изкуствен Интелект

Gartner: Защо малките данни са бъдещето на изкуствения интелект

CIO Media

Джим Хеър, Светлана Сикулър, Ерик Бретену, анализатори от Gartner

В резултат на пандемията от коронавирус напоследък се създадоха модели на изкуствен интелект във вертикални индустрии, които генерират неточни резултати. Ръководители на продукти, които предлагат решения с изкуствен интелект, трябва да разберат защо подходът с малки данни е важен при подпомагане на организациите да започнат с изкуствен интелект и създаване на разработки, които са по-гъвкави и пъргави.

До 2025 г. над 85% от технологичните доставчици ще включват техники за обогатяване на данни и обучение на модели, за да се увеличи гъвкавостта и пъргавостта на моделите в техните решения с изкуствен интелект. През 2020 г. те са били по-малко от 5%.

Анализ
За разлика от компаниите, които предлагат интернет услуги на клиенти и имат данни от милиарди потребители, за да обучават постоянно модели на изкуствен интелект, събирането на големи набори данни за обучение често е неприложимо за повечето предприятия. Само най-опитните екипи от учени за данни имат ресурсите да разработват и обучават сложни наблюдавани модели от самото начало. Дори за онези, които са могли успешно да пуснат в производство проекти за изкуствен интелект, пандемията COVID-19 имаше ефекта на забавяне. Причината е, че те са били обучени с помощта на големи данни, които вече не отразяват сегашната ситуация или парадигма.

В резултат на това оскъдността на данни се появи като голямо предизвикателство, особено за организации, които стават зависими от изкуствения интелект, за да изпълняват дейностите си. Във времена на разрив, когато търговските условия или поведението на клиентите се променят внезапно по безпрецедентни начини, липсата на нови данни за повторно обучение на моделите носи допълнителни затруднения. Гледайки към 2025 г., ръководителите на продукти търсят начини за максимална връзка с потенциалните купувачи, които да разберат и да реагират на тази действителност.

Концепцията за "малките данни" описва необходимостта и подхода към обучението на моделите на изкуствен интелект и тяхната работоспособност, когато има недостатъчно данни, или да използват по-прости модели, които изискват по-малко данни.

Ръководителите на продукти, които предлагат решения с възможности на изкуствен интелект, трябва да адаптират предложенията, за да ги направят по-лесни за организации да започнат с тях и да увеличат сложността на моделите. В близко време това означава да се поддържат модели за повърхностно машинно обучение, които работят с малки данни, и да се развиват към по-сложни модели, обучени с по-големи набори от данни. Ако не са възможни модели за повърхностно машинно обучение (например за компютърно зрение), имайте предвид, че сложните модели изискват големи количества данни, което може да се разреши с подходи с малки данни, обсъдени в тази статия. За среден и дългосрочен план това означава да се добавят технологии и иновации като синтетични данни, наслагване на модели, федерално обучение, самонаблюдавано обучение, адаптивно обучение и други, адресирани към проблеми с нарушена ефективност на машинното обучение и повишаващи пъргавостта и гъвкавостта на моделите. Обръщаме внимание на малките данни точно сега, тъй като това е проблем, който трябва да се разгледа. Но както големите данни са само данни, така и малките данни са само данни.

Въздействия и препоръки
Разрушителни въздействия като тези от пандемията от COVID-19 доведоха до значително влошаване на ефективността на производствените модели с изкуствен интелект. Организациите често се хвалят с това колко много данни са събрали през последните години. Но тези данни имат само ограничена употреба като данни за обучение за целите на изкуствения интелект. Данните за обучение са действително полезни само ако описват текущите пазарни и бизнес условия. Пандемията и действията на правителствата доведоха до драстични промени в поведението на потребители и фирми, в резултат на което много производствени модели с изкуствен интелект вече не дават надеждни резултати, особено в отраслите, където клиентите са в центъра. Това се получи, защото много имплементации на изкуствен интелект използваха модели на задълбочено обучение, които бяха обучени с големи набори от данни, отразяващи поведения преди промените.

Решенията със задълбочено обучение разчитат напълно на обема и качеството на данни. Липсата на качествени данни може да направи целия проект за изкуствен интелект безполезен или дори опасен. Данни, които не могат да представят действителността с нулево, минимално или приемливо ниво на отклонение, няма да могат да дадат желаните резултати. Задълбоченото обучение среща същите концептуални предизвикателства като машинното обучение от рада на отклонение в данните, промяна на концепцията, ръчна настройка на хиперпараметри, време за обучение и необходими ресурси, скорост на научаване и тесен обхват. Но предизвикателствата в задълбоченото обучение като отклонение в данните, промяна на концепцията и усилие за настройка на хиперпараметри са повишени спрямо онези, пред които се изправяте по време на повърхностно обучение.

За съжаление липсваха достатъчно данни за обучение, които да отразяват текущата ситуация, което накара организациите в много случаи да оставят своите модели за изкуствен интелект за време, когато отново ще разполагат с достатъчно данни. Други организации просто замениха проекти за изкуствен интелект с по-обикновени модели за повърхностно обучение, които могат да работят с по-малки количества данни, но дават по-неточни заключения в някои случаи. Примери за алгоритми за повърхностно обучение включват линейна регресия, клъстериране на К-средни стойности и дървета на решения, които могат да работят с малки набори от данни. Някои организации, които наемат външни експерти за имплементиране на модели, вероятно не знаят как да ги спрат или заменят. Освен това има други организации, които използват решения с вградени способности за изкуствен интелект, които работят невидими зад сцената. Такива организации нямат представа дали техните модели не изпитват проблеми с качеството. Това подчертава не само предизвикателството за внедряване на проекти с изкуствен интелект в производство, но и за гарантиране, че тези модели продължават да работят според очакванията и носят стойност за бизнеса.

Проблемът с малките данни е не само въпрос на разглеждане на големите разриви в производствени модели. Важно е също така да се стартират проекти за изкуствен интелект. Проучване на Gartner от 2019 г. за изкуствения интелект в организациите подчертава, че обемът/сложността на данните е бил най-голямата бариера внедряване на проекти с изкуствен интелект в производство от организации, които са имплементирали изкуствен интелект. Въпреки че точността на модела може да е по-малка, по-малките набори от данни и по-простите модели могат да помогнат за стартирането на проекти за изкуствен интелект и въвеждането им в производство по-бързо, за да започнат да носят стойност за бизнеса. След това моделите могат да бъдат надградени, за да се повиши точността, когато има достатъчно данни за обучение.

Препоръки:
■ Проучете всички случаи на използване на изкуствен интелект и вертикалните компании в отраслите, които са засегнати от сегашната пандемия, и подходите за възобновяване на работата на производствените модели.
■ Използвайте възможно най-простите модели в решенията за изкуствен интелект, вместо да се опитвате да използвате най-новия модел за задълбочено обучение, който зависи от голямо количество данни за обучение и носи повишена сложност и риск.
■ Улеснете организациите в началния процес на използване на вашето решение за изкуствен интелект, като използвате повърхностно обучение и малки набори от данни за обучение, и след това обучете отново и надградете моделите, когато има повече налични данни.

Уникални решения с изкуствен интелект, които използват малки данни
Днес повечето организации имплементират и мащабират случаи на употреба, типични за техните отрасли - прогноза за отказване на клиенти, превенция на измами или препоръки на продукти. Освен това много компании също възприемат решения с изкуствен интелект в корпоративни приложения като управление на връзките с клиентите, планиране на ресурсите на предприятия и човешки ресурси. Очевидно е, че тези случаи на употреба на изкуствен интелект са полезни. Освен това те носят диференциация, тъй като онези, които са ги имплементирали, получават предимството на първите пред другите, които ги нямат. Когато болшинството имплементират типичните случаи на употреба, тези решения вече няма да правят разликата. Типичните случаи на употреба ще станат "залози на масата", подобни на корпоративните бизнес приложения, които са стандарт за задължително присъствие във всяка компания. Пътят към успех в диференциране на случаите на употреба е малките данни. Въпреки че още е рано за дългата опашка от уникални решения, те ще започнат да преобладават след три до пет години.

Един изпъкващ проблем в изкуствения интелект точно сега е липсата на бизнес идеи. Това отчасти се дължи на факта, че хората от бизнеса още учат какво може да направи изкуственият интелект, и отчасти защото обхватът на сегашните решения с изкуствен интелект е ограничен до наличието на данни, които да донесат стойност. След три до пет години, когато повечето компании вече ще се използват типични случаи на употреба на изкуствен интелект, хората от бизнеса също така ще имат много по-добро разбиране за и експозиция към изкуствен интелект. Те започнат да генерират идеи за уникални случаи на употреба, които ще донесат полза за техния бизнес. Макар че общите типични случаи на употреба имат достатъчни данни, дълга опашка от уникални случаи на употреба често няма.

Превод и редакция Мариана Апостолова

X