Chaos and Correlation

**Eugene Lutsenko** » Сб июл 28, 2018 8:50 am

Это тема для обсуждения задачи Каггла:

https://www.kaggle.com/c/santander-valu ... lenge/data
https://www.kaggle.com/c/santander-valu ... evaluation

Система Эйдос-XMT с поддержкой мультитаблиц уже может создавать модели необходимой размерности.
GPU-модули Димы позволяют очень быстро осуществлять синтез модели и распознавание.

Так что теперь у нас есть свой инструмент для решения подобных задач и мы можем его совершенствовать.

В этой связи возникают вопросы (наверное прежде всего к Александру Петровичу):
- с какой точностью нужно прогнозировать значения в целевой колонке?
- не поздно ли уже это делать, ведь осталось всего 17 дней до предоставления материалов.

Но даже если эту задачу мы решать не будем, все равно хорошо, что у нас появился более мощный инструмент, к созданию которого подтолкнула именно эта задача.

**Eugene Lutsenko** » Сб июл 28, 2018 3:40 pm

Провел синтез и распознавание обучающей выборки. Это заняло 6 часов.

Полная модель размещена по ссылке: http://lc.kubagro.ru/Dima/Aidos-XMT.rar
Разархивировать в корневом каталоге на диске C:

Самой достоверной оказалась модель Inf2 с инт.крит. "Рез.знаний"

Сейчас займусь вводом тестовой (распознаваемой) выборки.
Введем, распознаем с помощью Диминых модулей и пошлем на Каггл результат.

**Eugene Lutsenko** » Сб июл 28, 2018 9:37 pm

Я отладил режим ввода распознаваемой выборки в модель большой размерности (тысячи измерительных шкал). Сейчас делаю модель со 100 градациями классификационной шкалы (чтобы выше была точность прогноза) и по 10 градаций в каждой из 4990 описательных шкал. Потом создам и верифицирую модели в этих шкалах в системе Эйдос, чтобы знать в какой модели и с каким интегральным критерием получается самая высокая достоверность прогнозирования на ретроспективных данных. Затем введу тестовую выборку (которая имеет очень большой объем), распознаю ее (в Димином модуле) и сделаю файл для отсылки результата на Каггл.

С точки зрения программирования все вопросы решены (еще Диме надо доделать модуль распознавания).
Все эти расчеты по прикидке займут несколько дней.

**Petrovich** » Вс июл 29, 2018 3:48 am

Eugene Lutsenko писал(а):Это тема для обсуждения задачи Каггла:

https://www.kaggle.com/c/santander-valu ... lenge/data
https://www.kaggle.com/c/santander-valu ... evaluation

Система Эйдос-XMT с поддержкой мультитаблиц уже может создавать модели необходимой размерности.
GPU-модули Димы позволяют очень быстро осуществлять синтез модели и распознавание.

Так что теперь у нас есть свой инструмент для решения подобных задач и мы можем его совершенствовать.

В этой связи возникают вопросы (наверное прежде всего к Александру Петровичу):
- с какой точностью нужно прогнозировать значения в целевой колонке?
- не поздно ли уже это делать, ведь осталось всего 17 дней до предоставления материалов.

Но даже если эту задачу мы решать не будем, все равно хорошо, что у нас появился более мощный инструмент, к созданию которого подтолкнула именно эта задача.

там сказано в каком виде представлять данные

Код: Выделить всё: ID,target 000137c73,5944923.322036332 00021489f,5944923.322036332 0004d7953,5944923.322036332

девять знаков после запятой (многовато будет для такой задачи). Можно и в последний день отправить файл. Обрати внимание, что в выходных данных надо использовать точку, а не запятую в качестве разделителя.

**Eugene Lutsenko** » Вс июл 29, 2018 4:38 am

Да, с 9 знаками они чего-то перегнули. Я сделал 100 интервальных значений от минимального до максимального и буду писать среднее для каждого интервального значения. Все равно они вычисляют свою меру достоверности.

У них там много разных как бы "ляпов", например: 501 колонка (из 4993) в обучающей выборке без вариабельности значений (пустые).

Модель можно скачать здесь: https://yadi.sk/d/wYn3HSOE3ZgCp9

Дима!

На этой модели (наверное из-за ее высокой размерности) модуль синтеза модели выдает ошибку. Модуль распознавания не проверял, т.к. не было синтеза модели.

**Eugene Lutsenko** » Вс июл 29, 2018 8:44 am

Запустил на работе синтез моделей и распознавание. Синтез моделей прошел нормально и в разумное время (на тех шкалах, на которых GPU-модуль синтеза модели выдает ошибку), а распознавание тоже идет нормально, но очень и очень медленно. Я его прервал и стал загонять распознаваемую выборку в модель. В результате получится модель, в которой будет все для синтеза моделей и для распознавания тестовой выборки, т.е. практически все для решения поставленной на Каггле задачи. И все для отладки GPU-модулей синтеза моделей и распознавания на реальных моделях больших размерностей.

Останется только перенести информацию из выходного файла Диминого GPU-модуля распознавания в форму, которую требуют на Каггле. Но это программка на пол-странички.

Когда будет готово - выставлю (это будет около полуночи).

**Eugene Lutsenko** » Вс июл 29, 2018 9:34 am

Александр Петрович!

Может введете на Каггле команду. А то у меня не получается.
И еще как дела с проектом на ResearchGate?

**Eugene Lutsenko** » Пн июл 30, 2018 3:38 am

Пока с вводом тестовой выборки еще не получилось до конца как надо.

**Eugene Lutsenko** » Пн июл 30, 2018 4:49 am

Распознаваемая выборка будет в 10 раз больше, чем в размещенном варианте.
В нем она такая же, как обучающая: 4459 объектов, а в тестовой выборке 49342 объекта.
Модули вылетают только из-за числа шкал и градаций при этом числе объектов.

**Eugene Lutsenko** » Пн июл 30, 2018 7:29 am

Может быть загружать в оперативную память максимальными блоками, которые в нее помещаются реально

Chaos and Correlation

Santander Value Prediction Challenge

Santander Value Prediction Challenge

Re: Santander Value Prediction Challenge

Re: Santander Value Prediction Challenge

Re: Santander Value Prediction Challenge

Re: Santander Value Prediction Challenge

Re: Santander Value Prediction Challenge

Re: Santander Value Prediction Challenge

Re: Santander Value Prediction Challenge

Re: Santander Value Prediction Challenge

Re: Santander Value Prediction Challenge

Кто сейчас на конференции