[phpBB Debug] PHP Notice: in file /viewtopic.php on line 981: date(): It is not safe to rely on the system's timezone settings. You are *required* to use the date.timezone setting or the date_default_timezone_set() function. In case you used any of those methods and you are still getting this warning, you most likely misspelled the timezone identifier. We selected the timezone 'UTC' for now, but please set date.timezone to select your timezone.
[phpBB Debug] PHP Notice: in file /viewtopic.php on line 981: getdate(): It is not safe to rely on the system's timezone settings. You are *required* to use the date.timezone setting or the date_default_timezone_set() function. In case you used any of those methods and you are still getting this warning, you most likely misspelled the timezone identifier. We selected the timezone 'UTC' for now, but please set date.timezone to select your timezone.
[phpBB Debug] PHP Notice: in file /includes/functions.php on line 4183: Cannot modify header information - headers already sent by (output started at /includes/functions.php:3493)
[phpBB Debug] PHP Notice: in file /includes/functions.php on line 4185: Cannot modify header information - headers already sent by (output started at /includes/functions.php:3493)
[phpBB Debug] PHP Notice: in file /includes/functions.php on line 4186: Cannot modify header information - headers already sent by (output started at /includes/functions.php:3493)
[phpBB Debug] PHP Notice: in file /includes/functions.php on line 4187: Cannot modify header information - headers already sent by (output started at /includes/functions.php:3493)
Chaos and Correlation • Просмотр темы - Santander Value Prediction Challenge

Santander Value Prediction Challenge

Модераторы: ТВЧ, Petrovich

Re: Santander Value Prediction Challenge

Сообщение Eugene Lutsenko » Вс авг 05, 2018 8:50 pm

Надо все же видимо довести до ума распознавание с GPU.

Там еще почему-то в результате получалось другое количество объектов, чем было в тестовой выборке. Я об этом писал.
И сейчас при распознавании обуч.выборки различие осталось: в результате на 1 больше.
Аватара пользователя
Eugene Lutsenko
 
Сообщения: 9738
Зарегистрирован: Вт мар 09, 2010 6:11 am
Откуда: Krasnodar, Russia

Re: Santander Value Prediction Challenge

Сообщение Eugene Lutsenko » Вс авг 05, 2018 8:56 pm

В результате эти объекты лишние (их 38):

fd3af939c
fd46bc316
fd69c65d3
fd801ee9d
fd992de8a
fdac3144d
fdc71f3af
fdec1a81a
fdf7658f0
fe02247d5
fe0c5726a
fe22d064a
fe243db29
fe497b462
fe5414c97
fe596c7c2
fe7595983
fe800ed37
fe808da78
feb1ad7a8
febbda7c9
fed131a60
fef33cb02
fef8c8005
ff0dccf66
ff2320d84
ff2558703
ff34496ea
ff3d0e888
ff3e1f24c
ff7b7c367
ff7be29d2
ff7cdeb16
ff85154c8
ffb6b3f4f
ffcf61eb6
ffea67e98
ffeb15d25

Начиная со 117 объекта в результатах появляются новые объекты, которых не было в расп.выборке.

115 06cd03d09 06cd03d09 129925.000000000 0
116 06e503809 06e503809 19915076.0000000 0
117 06f5eb3b9 06e503809 129925.000000000 1
118 06f84353d 06f5eb3b9 129925.000000000 1

Объект 06e503809 лишний. И дальше еще появилось неизвестно откуда 37 объектов
Аватара пользователя
Eugene Lutsenko
 
Сообщения: 9738
Зарегистрирован: Вт мар 09, 2010 6:11 am
Откуда: Krasnodar, Russia

Re: Santander Value Prediction Challenge

Сообщение Eugene Lutsenko » Пн авг 06, 2018 6:00 am

Дмитрий Бандык писал(а):Буду разбиратьтся. Имена как вижу пошли с начала списка. Где-то при разбиении выборки на части последняя часть пошла как равная по размеру с предыдущими. А должна быть короче. Исправлю.

После этого наверное модуль распознавания будет практически готов. Надо будет еще конечно проверить правильность результатов на малой выборке. Проверю. При завершении не выдал ошибку, написал нормальное сообщение о завершении работы. Я просто взял и сравнил в Excel колонку наименований объектов из файла результата (вида results_inf7k.csv) и из файла заголовков распознаваемой выборки (Rso_Zag.dbf). Там в результатах не только в конце объекты из начала списка. Еще и по всему списку вставлено по 1 объекту в разных местах с определенным шагом. Послал тебе на почту Excel-файл со сравнением. Может тебе поможет. Там появляется смещение в результате из-за дублирования объекта, и оно нарастает.
Аватара пользователя
Eugene Lutsenko
 
Сообщения: 9738
Зарегистрирован: Вт мар 09, 2010 6:11 am
Откуда: Krasnodar, Russia

Re: Santander Value Prediction Challenge

Сообщение Eugene Lutsenko » Пн авг 06, 2018 6:49 am

Спасибо. Буду смотреть. Еще пожелание. Не мог бы не использовать серый цвет в прогресс-бар. Мне он не нравится.

После окончания работы модуля распознавания можно написать:


Распознавание завершено успешно! (полужирным)
Объектов распознаваемой выборки: #########
Классов: #########. Признаков: #########
Моделей: ##. Интегральных критериев: ##
Время исполнения: ## час. ## мин. ## сек.

А после модуля синтеза моделей:

Синтез моделей успешно завершен! (полужирным)
Объектов обучающей выборки: ########
Классов: #########. Признаков: #########
Моделей: ##. Время исполнения: ## час. ## мин. ## сек.

Как-то посимпатичнее выровнять на окошке
Аватара пользователя
Eugene Lutsenko
 
Сообщения: 9738
Зарегистрирован: Вт мар 09, 2010 6:11 am
Откуда: Krasnodar, Russia

Re: Santander Value Prediction Challenge

Сообщение Eugene Lutsenko » Пн авг 06, 2018 7:16 am

OK. Тогда посмотрю я.

начал поиск самой достоверной модели по метрике Каггла (Среднеквадратическое отклонение логарифмов факта и прогноза (RMSLE) )

https://habr.com/post/176267/
Аватара пользователя
Eugene Lutsenko
 
Сообщения: 9738
Зарегистрирован: Вт мар 09, 2010 6:11 am
Откуда: Krasnodar, Russia

Re: Santander Value Prediction Challenge

Сообщение Eugene Lutsenko » Пн авг 06, 2018 10:13 am

Дима!
Попробуй, плз, сделать формат матриц моделей таким, чтобы они считывались в системе Эйдос, например в режиме 5.5. Их структуры я привел выше. Конец строки CrLf
Аватара пользователя
Eugene Lutsenko
 
Сообщения: 9738
Зарегистрирован: Вт мар 09, 2010 6:11 am
Откуда: Krasnodar, Russia

Re: Santander Value Prediction Challenge

Сообщение Eugene Lutsenko » Пн авг 06, 2018 10:59 am

Данные по достоверности моделей с различными инт.критериями:
Код: Выделить всё
Наим. Модели   Достоверность модели
Prc2i   36,28616
Prc1i   15,04822
Inf7i   10,65261
Absk   9,75555
Inf4i   8,18569
Inf2i   4,64230
Inf1i   4,14891
Inf6i   3,22942
Inf5i   2,71361
Absi   1,61471
Inf1k   1,07647
Inf4k   0,94192
Inf2k   0,58309
Inf6k   0,49338
Inf7k   0,33640
Inf3i   0,13456
Inf3k   0,08971
Среднее прогноз   0,06728
Prc1k   0,00000
Prc2k   0,00000
Inf5k   0,00000

Это доля случае в %, когда прогноз в данной модели с данным инт.критерием был наиболее точным (модуль абс.погрешности был минимальным)
Аватара пользователя
Eugene Lutsenko
 
Сообщения: 9738
Зарегистрирован: Вт мар 09, 2010 6:11 am
Откуда: Krasnodar, Russia

Re: Santander Value Prediction Challenge

Сообщение Eugene Lutsenko » Пн авг 06, 2018 12:11 pm

Пытался найти наиболее достоверную модель по результатам распознавания обучающей выборки, чтобы потом использовать это при подготовке данных для Каггла после распознавания тестовой выборки. Откровенно говоря пока достоверность получилась так себе, не очень. Причем по разным критериям разные модели оказываются наиболее достоверными. Я сделал средневзвешенный прогноз из небольшого числа наиболее достоверных моделей, который тоже так себе.

Проверил все на моделях небольших размерностей. Все работает правильно, и система Эйдос, и Димины модули, и дают хорошие результаты, но не на этих данных.

Послал на почту
Аватара пользователя
Eugene Lutsenko
 
Сообщения: 9738
Зарегистрирован: Вт мар 09, 2010 6:11 am
Откуда: Krasnodar, Russia

Re: Santander Value Prediction Challenge

Сообщение Eugene Lutsenko » Пн авг 06, 2018 12:42 pm

Ну да. запустил распознавание тестовой выборки Пишет, что займет чуть больше 20 минут. Потом сделаю два результата для Каггла: в наиболее достоверной модели согласно здравого смысла и по их критерию. Это разные модели
Аватара пользователя
Eugene Lutsenko
 
Сообщения: 9738
Зарегистрирован: Вт мар 09, 2010 6:11 am
Откуда: Krasnodar, Russia

Re: Santander Value Prediction Challenge

Сообщение Eugene Lutsenko » Пн авг 06, 2018 2:21 pm

Модуль распознавания работал чуть меньше получаса (28 минут) и в конце после 100% выдал сообщение об ошибке памяти, а не о нормальном завершении.

Сейчас тоже можно кое-что сделать, типа того, что я делал в Excel.
Напишу тебе на почту, чтобы не пользовались конкуренты.

Но если это не учитывать, то результат уже получен. Но лучше учитывать. Дима! Может быть сделаешь модуль определения наилучшей модели по критерию RMSLE и подбора смещения результатов распознавания тестовой выборки по результатам распознавания обучающей выборки? Алгоритм и Ecel-файл с решением этой задачи я послал тебе и Александру Петровичу на почту
Аватара пользователя
Eugene Lutsenko
 
Сообщения: 9738
Зарегистрирован: Вт мар 09, 2010 6:11 am
Откуда: Krasnodar, Russia

Пред.След.

Вернуться в Chaos and Correlation

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 29

cron