AutoML демократизирует и улучшает ИИ

Когда-то нишевая технология, Automated Machine learning (AutoML) теперь стала чем-то особенным. Помогая ученым, не относящимся к данным, выполнять простой ИИ, и помогая обученным специалистам по данным выполнять сложную работу все быстрее, технология AutoML завоевывает популярность и вполне может поставить ИИ на скоростную магистраль предприятия.

В искусственном интеллекте (ИИ) ирония заключается в том, что для построения прогностических моделей с максимальной точностью требуется много ручного, пробного и ошибочного подхода. С кажущимся непрерывным появлением систем машинного обучения и глубокого обучения, а также их обновлений, а также изменений в инструментальных платформах, неудивительно, что такая большая работа с искусственным интеллектом является настолько специальной. Но все же, почему технология, которая полностью автоматизирована, требует столько усилий?

Проблема всей ручной работы состоит из двух частей: во-первых, люди, не обученные науке о данных, практически не могут выполнять работу с ИИ; и во-вторых, люди, имеющие опыт работы с данными, сами сталкиваются с очень неэффективным рабочим процессом.

AutoML, спаси меня!

Однако, эта проблема начинает проясняться с появлением автоматизированного машинного обучения (AutoML). Несколько компаний, таких как DataRobot, специализируются на этом. Другие стартапы ИИ, такие как Dataiku, H20 и RapidMiner, а также признанные компании-разработчики программного обеспечения, такие как Tibco, имеют широкие ИИ-платформы, которые также поддерживают возможности AutoML. Как и основные публичные облачные платформы, включая Microsoft Azure, Amazon Web Services и Google Cloud Platform. Существуют также фреймворки с открытым исходным кодом AutoML, такие как Auto-sklearn, Auto-Keras и недавно открытая платформа Ludwig от Uber.

AutoML выглядит гораздо больше, чем причуда. На самом деле, несколько человек, с которыми я общался на рынке ИИ, думают, что AutoML может стать будущим ИИ в целом. Пока у вас есть чистый набор данных, и вы знаете, какой столбец в нем является этикетка (цель a.k.a), т. е. значение, которое вы хотели бы предсказать с помощью новых данных, AutoML создаст для вас модель с огромным сокращением усилий. И иногда вы получите свою модель без каких-либо дополнительных усилий.

Имея это в виду, я подумал, что что-то вроде учебника для начинающих может быть в порядке, и этот пост. моя попытка предоставить его. Отказ от ответственности: хотя я являюсь последователем ИИ с 80-х годов и энтузиастом систем интеллектуального анализа данных с конца 90-х, я не ученый данных. Таким образом, мой словарный запас и объяснения не являются авторитетными с педагогической точки зрения. в некоторых случаях они могут быть наивными. Но то, что у меня есть, должно помочь вам понять возможности платформы AutoML, которые, я надеюсь, помогут вам оценить продукты и платформы на рынке.

поэтапно

Для начала рассмотрим, что понимание AutoML включает в себя знакомство с основными задачами в процессе машинного обучения. Остальная часть этого поста будет содержать перечень этих задач и объяснит, какие из них обычно. или менее часто. решаются решениями AutoML.

Особенность работы: Если у вас есть набор данных и вы знаете столбец метки / цели, это здорово. Но ваше следующее требование. выяснить, какие столбцы в вашем наборе данных имеют отношение к прогнозированию значения метки, и привести их в надлежащую форму для обработки моделей машинного обучения. После того, как вы выберете столбцы, вам также может понадобиться преобразовать текстовые значения в числа, вменять пропущенные значения и иным образом очищать их (например, удалять дубликаты, удалять из них пустые значения и пробелы или удалять из них посторонние символы).

По общему признанию, если вы хорошо знаете свои данные, многое из этого может быть сделано вручную, даже без формального обучения науке о данных. Независимо от этого, ученые-данные будут работать лучше. Вот почему, хотя некоторые платформы AutoML требуют, чтобы вы указали свои функции, многие будут анализировать ваш набор данных и предлагать, какие столбцы будут хорошо работать, позволяя вам принять эти варианты выбора как есть или изменить их.

Алгоритм выбора: это включает в себя определение типа алгоритма, библиотеки / структуры для использования и конкретного алгоритма соответствующего типа в библиотеке. Существуют практические правила выбора типа в зависимости от прогноза, который вы пытаетесь сделать, и структуры ваших данных. Оттуда, выбор подходящего алгоритма может быть сделан, даже если неточно, путем догадок.

Но выбор алгоритма. это то, где многие системы AutoML сияют даже до момента автоматизации конкуренции между несколькими алгоритмами, как подробно описано в нескольких параграфах ниже.

Настройка гиперпараметра: Каждый алгоритм имеет параметры, которые могут быть установлены. и диапазон значений, которые принимаются для каждого из них. для управления конфигурацией алгоритма и тем, как он применяется к данным. Хотя в некоторых случаях вы можете использовать значения по умолчанию, скопировать значения из кода, который вы нашли в сети (даже если этот код предназначен для совершенно другой проблемы), или просто догадаться, установка значений гиперпараметра. важная работа, которая ни в коем случае не является прямой.

Вот почему практически все Среды AutoML включают в себя автоматическую настройку гиперпараметров. даже если они делают это каким-то методом грубой силы. Объедините эту возможность с выбором алгоритма и выбором функций, что многие системы AutoML также делают для вас. и вдруг ИИ становится доступным для гораздо более широкого круга технологов.

Конкурс красоты

Модельный конкурс: Хотя работа с функциями, выбор алгоритма и настройка гиперпараметров могут выполняться алгоритмически, генерируя ровно одну комбинацию каждого, определенные системы AutoML будут выбирать набор кандидатов для каждого, а затем строить модели на основе различных комбинаций этих кандидатов. Оттуда ваши модели проходят обучение и тестирование, чтобы определить, какие из них наиболее точные. А в некоторых системах AutoML показатель, используемый для определения точности, можно настраивать.

В то время как сгенерированные модели обучаются, системы AutoML обычно отображают Лидеры из самых точных моделей. Когда все обучение завершено, модель в верхней части таблицы лидеров, по определению, является самой точной моделью, которую выберет большинство пользователей AutoML.

Можете ли вы сделать конкурс самостоятельно? Возможно, но большинство людей, включая ученых, не хотят писать и отлаживать код, необходимый для этого. Тем не менее, многие системы AutoML будут делать это, оказывая важную помощь ученым, работающим с данными, и тем, кто не занимается данными. Такая работа поможет вам получить лучшую модель.

AutoML демократизирует и улучшает ИИ

Строительные ансамбли: Создание набора моделей, затем их упаковка, чтобы они выглядели и вели себя как единая модель. это задача, которую некоторые системы AutoML возьмут на себя за вас. Внутри происходит то, что данные, отправленные для оценки (выполнение прогнозов), проходят по всем моделям, а затем прогнозируется каждая из таблиц, и в соответствии с той или иной формулой возвращается консенсусное значение прогнозирования.

Ансамбли, как правило, более точные, чем отдельные модели, но оценка занимает больше времени, поскольку это должно быть сделано несколько раз, а затем должно быть рассчитано согласованное прогнозируемое значение. Большая часть этой работы может быть распараллелена, хотя дополнительная инфраструктура, необходимая для параллельной работы, не бесплатна.

Доставка

Генерация модели с помощью AutoML может быть впечатляющей, но если модель фактически никогда не используется, кого это волнует? Именно это и вызывает беспокойство, поэтому некоторые системы AutoML также будут развертывать модель в производстве, а затем отслеживать и управлять ею, чтобы поддерживать ее точность и эффективность. В заключение давайте посмотрим на эти задачи.

Развертывание модели: Это включает создание вызываемой веб-службы (почти наверняка основанной на REST) ​​для оценки новых данных в соответствии с вашей моделью, затем развертывание их в некоторой среде хостинга и возвращение вам конечной точки (то есть URL-адреса), где она может быть вызвана. Служба будет построена таким образом, чтобы входные параметры службы соответствовали значениям признаков, а возвращаемое значение соответствовало прогнозируемому значению метки.

Модельный мониторинг: Это включает в себя наблюдение за моделью, запуская новые данные и проверяя, сохраняется ли точность, или она снижается. модель дрейф. явление, при котором статистические свойства изменения метки / цели. также могут контролироваться. Обратите внимание, что, как и в случае с модельным соревнованием, метрика, используемая для точности, может варьироваться и настраиваться.

Переподготовка модели: Некоторые системы будут переучивать модели в автоматическом режиме, либо в ответ на падение точности ниже некоторого порога, либо, как правило, с определенной частотой. Это особенно актуально для моделей, построенных на потоковых данных. Системы AutoML, которые обрабатывают это для вас, действительно обрабатывают весь процесс, от начала до конца. Это ультрасовременный материал, который привносит концепцию непрерывного развертывания в ИИ.

Что дальше?

Как вы можете видеть по количеству и сложности каждого из этих шагов, сама работа ИИ нетривиальна, и потенциал для автоматизации многих запутанных или утомительных ее частей имеет большую ценность. Таким образом, AutoML может быть убийственным приложением, которое делает ИИ мейнстримом на предприятии.

Auto ML также может помочь выйти за рамки возможного, позволяя ученым переходить к более сложным задачам, основанным на автоматизированных вышеописанных шагах. Текущие возможности AutoML на самом деле являются лишь частью начального шага, и AutoML может помочь AI в целом улучшить свою игру.

Это захватывающее время, когда юзабилити и принятие ИИ могут начать резко ускоряться. Так что следите за обновлениями. Некоторые из компаний, упомянутых в начале этого поста, усердно работают над быстрыми инновациями AutoML.