[phpBB Debug] PHP Notice: in file /viewtopic.php on line 981: date(): It is not safe to rely on the system's timezone settings. You are *required* to use the date.timezone setting or the date_default_timezone_set() function. In case you used any of those methods and you are still getting this warning, you most likely misspelled the timezone identifier. We selected the timezone 'UTC' for now, but please set date.timezone to select your timezone.
[phpBB Debug] PHP Notice: in file /viewtopic.php on line 981: getdate(): It is not safe to rely on the system's timezone settings. You are *required* to use the date.timezone setting or the date_default_timezone_set() function. In case you used any of those methods and you are still getting this warning, you most likely misspelled the timezone identifier. We selected the timezone 'UTC' for now, but please set date.timezone to select your timezone.
[phpBB Debug] PHP Notice: in file /includes/functions.php on line 4183: Cannot modify header information - headers already sent by (output started at /includes/functions.php:3493)
[phpBB Debug] PHP Notice: in file /includes/functions.php on line 4185: Cannot modify header information - headers already sent by (output started at /includes/functions.php:3493)
[phpBB Debug] PHP Notice: in file /includes/functions.php on line 4186: Cannot modify header information - headers already sent by (output started at /includes/functions.php:3493)
[phpBB Debug] PHP Notice: in file /includes/functions.php on line 4187: Cannot modify header information - headers already sent by (output started at /includes/functions.php:3493)
Chaos and Correlation • Просмотр темы - Santander Value Prediction Challenge

Santander Value Prediction Challenge

Модераторы: ТВЧ, Petrovich

Santander Value Prediction Challenge

Сообщение Eugene Lutsenko » Сб июл 28, 2018 8:50 am

Это тема для обсуждения задачи Каггла:

https://www.kaggle.com/c/santander-valu ... lenge/data
https://www.kaggle.com/c/santander-valu ... evaluation

Система Эйдос-XMT с поддержкой мультитаблиц уже может создавать модели необходимой размерности.
GPU-модули Димы позволяют очень быстро осуществлять синтез модели и распознавание.

Так что теперь у нас есть свой инструмент для решения подобных задач и мы можем его совершенствовать.

В этой связи возникают вопросы (наверное прежде всего к Александру Петровичу):
- с какой точностью нужно прогнозировать значения в целевой колонке?
- не поздно ли уже это делать, ведь осталось всего 17 дней до предоставления материалов.

Но даже если эту задачу мы решать не будем, все равно хорошо, что у нас появился более мощный инструмент, к созданию которого подтолкнула именно эта задача.
Аватара пользователя
Eugene Lutsenko
 
Сообщения: 9738
Зарегистрирован: Вт мар 09, 2010 6:11 am
Откуда: Krasnodar, Russia

Re: Santander Value Prediction Challenge

Сообщение Eugene Lutsenko » Сб июл 28, 2018 3:40 pm

Провел синтез и распознавание обучающей выборки. Это заняло 6 часов.

Полная модель размещена по ссылке: http://lc.kubagro.ru/Dima/Aidos-XMT.rar
Разархивировать в корневом каталоге на диске C:

Самой достоверной оказалась модель Inf2 с инт.крит. "Рез.знаний"

Сейчас займусь вводом тестовой (распознаваемой) выборки.
Введем, распознаем с помощью Диминых модулей и пошлем на Каггл результат.
Аватара пользователя
Eugene Lutsenko
 
Сообщения: 9738
Зарегистрирован: Вт мар 09, 2010 6:11 am
Откуда: Krasnodar, Russia

Re: Santander Value Prediction Challenge

Сообщение Eugene Lutsenko » Сб июл 28, 2018 9:37 pm

Я отладил режим ввода распознаваемой выборки в модель большой размерности (тысячи измерительных шкал). Сейчас делаю модель со 100 градациями классификационной шкалы (чтобы выше была точность прогноза) и по 10 градаций в каждой из 4990 описательных шкал. Потом создам и верифицирую модели в этих шкалах в системе Эйдос, чтобы знать в какой модели и с каким интегральным критерием получается самая высокая достоверность прогнозирования на ретроспективных данных. Затем введу тестовую выборку (которая имеет очень большой объем), распознаю ее (в Димином модуле) и сделаю файл для отсылки результата на Каггл.

С точки зрения программирования все вопросы решены (еще Диме надо доделать модуль распознавания).
Все эти расчеты по прикидке займут несколько дней.
Аватара пользователя
Eugene Lutsenko
 
Сообщения: 9738
Зарегистрирован: Вт мар 09, 2010 6:11 am
Откуда: Krasnodar, Russia

Re: Santander Value Prediction Challenge

Сообщение Petrovich » Вс июл 29, 2018 3:48 am

Eugene Lutsenko писал(а):Это тема для обсуждения задачи Каггла:

https://www.kaggle.com/c/santander-valu ... lenge/data
https://www.kaggle.com/c/santander-valu ... evaluation

Система Эйдос-XMT с поддержкой мультитаблиц уже может создавать модели необходимой размерности.
GPU-модули Димы позволяют очень быстро осуществлять синтез модели и распознавание.

Так что теперь у нас есть свой инструмент для решения подобных задач и мы можем его совершенствовать.

В этой связи возникают вопросы (наверное прежде всего к Александру Петровичу):
- с какой точностью нужно прогнозировать значения в целевой колонке?
- не поздно ли уже это делать, ведь осталось всего 17 дней до предоставления материалов.

Но даже если эту задачу мы решать не будем, все равно хорошо, что у нас появился более мощный инструмент, к созданию которого подтолкнула именно эта задача.

там сказано в каком виде представлять данные
Код: Выделить всё
ID,target
000137c73,5944923.322036332
00021489f,5944923.322036332
0004d7953,5944923.322036332

девять знаков после запятой (многовато будет для такой задачи). Можно и в последний день отправить файл. Обрати внимание, что в выходных данных надо использовать точку, а не запятую в качестве разделителя.
Аватара пользователя
Petrovich
Site Admin
 
Сообщения: 10245
Зарегистрирован: Сб мар 06, 2010 12:05 pm
Откуда: Toronto, Canada

Re: Santander Value Prediction Challenge

Сообщение Eugene Lutsenko » Вс июл 29, 2018 4:38 am

Да, с 9 знаками они чего-то перегнули. Я сделал 100 интервальных значений от минимального до максимального и буду писать среднее для каждого интервального значения. Все равно они вычисляют свою меру достоверности.

У них там много разных как бы "ляпов", например: 501 колонка (из 4993) в обучающей выборке без вариабельности значений (пустые).

Модель можно скачать здесь: https://yadi.sk/d/wYn3HSOE3ZgCp9

Дима!

На этой модели (наверное из-за ее высокой размерности) модуль синтеза модели выдает ошибку. Модуль распознавания не проверял, т.к. не было синтеза модели.
Аватара пользователя
Eugene Lutsenko
 
Сообщения: 9738
Зарегистрирован: Вт мар 09, 2010 6:11 am
Откуда: Krasnodar, Russia

Re: Santander Value Prediction Challenge

Сообщение Eugene Lutsenko » Вс июл 29, 2018 8:44 am

Запустил на работе синтез моделей и распознавание. Синтез моделей прошел нормально и в разумное время (на тех шкалах, на которых GPU-модуль синтеза модели выдает ошибку), а распознавание тоже идет нормально, но очень и очень медленно. Я его прервал и стал загонять распознаваемую выборку в модель. В результате получится модель, в которой будет все для синтеза моделей и для распознавания тестовой выборки, т.е. практически все для решения поставленной на Каггле задачи. И все для отладки GPU-модулей синтеза моделей и распознавания на реальных моделях больших размерностей.

Останется только перенести информацию из выходного файла Диминого GPU-модуля распознавания в форму, которую требуют на Каггле. Но это программка на пол-странички.

Когда будет готово - выставлю (это будет около полуночи).
Аватара пользователя
Eugene Lutsenko
 
Сообщения: 9738
Зарегистрирован: Вт мар 09, 2010 6:11 am
Откуда: Krasnodar, Russia

Re: Santander Value Prediction Challenge

Сообщение Eugene Lutsenko » Вс июл 29, 2018 9:34 am

Александр Петрович!

Может введете на Каггле команду. А то у меня не получается.
И еще как дела с проектом на ResearchGate?
Аватара пользователя
Eugene Lutsenko
 
Сообщения: 9738
Зарегистрирован: Вт мар 09, 2010 6:11 am
Откуда: Krasnodar, Russia

Re: Santander Value Prediction Challenge

Сообщение Eugene Lutsenko » Пн июл 30, 2018 3:38 am

Пока с вводом тестовой выборки еще не получилось до конца как надо.
Аватара пользователя
Eugene Lutsenko
 
Сообщения: 9738
Зарегистрирован: Вт мар 09, 2010 6:11 am
Откуда: Krasnodar, Russia

Re: Santander Value Prediction Challenge

Сообщение Eugene Lutsenko » Пн июл 30, 2018 4:49 am

Распознаваемая выборка будет в 10 раз больше, чем в размещенном варианте.
В нем она такая же, как обучающая: 4459 объектов, а в тестовой выборке 49342 объекта.
Модули вылетают только из-за числа шкал и градаций при этом числе объектов.
Аватара пользователя
Eugene Lutsenko
 
Сообщения: 9738
Зарегистрирован: Вт мар 09, 2010 6:11 am
Откуда: Krasnodar, Russia

Re: Santander Value Prediction Challenge

Сообщение Eugene Lutsenko » Пн июл 30, 2018 7:29 am

Может быть загружать в оперативную память максимальными блоками, которые в нее помещаются реально
Аватара пользователя
Eugene Lutsenko
 
Сообщения: 9738
Зарегистрирован: Вт мар 09, 2010 6:11 am
Откуда: Krasnodar, Russia

След.

Вернуться в Chaos and Correlation

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 13

cron