Машинное обучение. Что это и с чем его едят




Скачать 30.06 Kb.
Дата 01.10.2016
Размер 30.06 Kb.
МАШИННОЕ ОБУЧЕНИЕ. ЧТО ЭТО И С ЧЕМ ЕГО ЕДЯТ.

Семёнов Т.А., студент 3 курса ИМЭИ ИГУ


Аннотация: Работа ставит целью рассмотреть базовые понятия в области машинного обучения и некоторые современные результаты в этой области.

Ключевые слова: машинное обучение, большие данные, data science, нейронные сети.

“Про компьютерную программу говорят, что она

обучается на опыте E по отношению к некоторому классу

задач T и какой-то метрике P, если её выполнение задач

в T, измеренное метрикой P, улучшается с опытом E.”

– Tom M. Mitchell


В первую очередь словосочетание “Машинное Обучение” (в дальнейшем МО) ассоциируется у нас с такими словами, как: компьютер, данные, алгоритмы, статистика и т.д. И действительно, машинное обучение тесно связано с информатикой, математической статистикой, анализом данных и распознаванием образов.

Полезно рассмотреть основные вехи развития МО:



  • 1952 – первая машина играющая в шашки

  • 1957 – первый перцептрон, позволяющий распознавать изображения 20x20

  • 1967 – метод ближайших соседей, позволяющий классифицировать неразмеченные данные

  • 1981 – обучение на основе объяснений

  • 1986 – алгоритм обратного распространения ошибки

МО позволяет нам получать новые знания из уже существующих данных (используется в маркетинге); воспроизводить разумное поведение (используется в анализе естественных языков); разрабатывать само-настраиваемые системы (используется в фильтрации данных); строить системы, которые слишком сложны для ручного создания (используется в компьютерном зрении).

Процесс обучения заключается в получении данных из измерительных приборов, их предобработкой, снижением размерности данных, обучении модели и тестировании полученной модели.

Процесс сбора данных является одним из самых трудоемких – может занимать от 50% до 80% всего времени МО. В этой области существует множество проблем: репрезентативность данных, методы из сбора, хранение данных, и т.п.

Снижение размерности данных является очень важным шагом в процессе МО, так как оно позволяет избавиться от шума в данных и облегчить их последующий анализ. Выбор признаков и выделение признаков – два основных подхода для снижения размерности данных. Первый объединяет в себе методы фильтрации, обобщения и встроенные алгоритмы. Второй подход включает в себя создание линейных и нелинейных признаков из уже существующих.

Модели обучения делятся на два обширных класса: обучение с учителем и без. Примером обучения с учителем служит линейная регрессия, где мы пытаемся разбить все объекты на два класса, путём нахождения разделяющей прямой в пространстве признаков. Одной из самых популярных моделей обучения является дерево решений. Оно позволяет построить системы правил, хорошо интерпретируемых человеком, по которым можно однозначно определить принадлежность объекта к тому или иному классу. Метод ближайших соседей является примером обучения без учителя, что позволяет нам делить объекты на классы без какого-либо изначального знания об этих классах.

МО активно используется в реальной жизни:



  • Распознавание речи: Siri, Cortana, Google Translate, …

  • Рекомендательные системы: Amazon, Facebook, YouTube, …

  • Реклама: Google AdWords, Yandex.Direct, …

  • Распознавание изображений: DARPA, Tesla, Intel, …

Изучая МО, можно научиться создавать “разумные” машины и алгоритмы; можно получить навыки в компьютерных науках и смежных областях; можно поучаствовать в улучшении мира; можно получить отличные карьерные возможности. В США специалисты по анализу данных получают в среднем на $10,000 в год больше, чем их коллеги в разработке ПО со схожим стажем.

Чтобы заниматься МО, необходимо обладать определённым набором навыков. Обязательно знание математики: матанализ, линейная алгебра, математическая статистика, и т.д. Необходимо знать какой-нибудь язык программирования, желательно Python, R или C++. Желательно обладать хорошими знаниями алгоритмов и структур данных.


Список использованных источников и литературы

  1. Python библиотека машинного обучения. URL: http://scikit-learn.org/.

  2. Tianfan Xue, Michae R., Ce Liu, William T. F. 2015. A computational approach for obstruction-free photography (MIT).

  3. Онлайн справочник зарплат. URL: http://www.payscale.com/.


База данных защищена авторским правом ©infoeto.ru 2022
обратиться к администрации
Как написать курсовую работу | Как написать хороший реферат
    Главная страница