Chaos and Correlation

**Eugene Lutsenko** » Вс авг 05, 2018 8:50 pm

Надо все же видимо довести до ума распознавание с GPU.

Там еще почему-то в результате получалось другое количество объектов, чем было в тестовой выборке. Я об этом писал.
И сейчас при распознавании обуч.выборки различие осталось: в результате на 1 больше.

**Eugene Lutsenko** » Вс авг 05, 2018 8:56 pm

В результате эти объекты лишние (их 38):

fd3af939c
fd46bc316
fd69c65d3
fd801ee9d
fd992de8a
fdac3144d
fdc71f3af
fdec1a81a
fdf7658f0
fe02247d5
fe0c5726a
fe22d064a
fe243db29
fe497b462
fe5414c97
fe596c7c2
fe7595983
fe800ed37
fe808da78
feb1ad7a8
febbda7c9
fed131a60
fef33cb02
fef8c8005
ff0dccf66
ff2320d84
ff2558703
ff34496ea
ff3d0e888
ff3e1f24c
ff7b7c367
ff7be29d2
ff7cdeb16
ff85154c8
ffb6b3f4f
ffcf61eb6
ffea67e98
ffeb15d25

Начиная со 117 объекта в результатах появляются новые объекты, которых не было в расп.выборке.

115 06cd03d09 06cd03d09 129925.000000000 0
116 06e503809 06e503809 19915076.0000000 0
117 06f5eb3b9 06e503809 129925.000000000 1
118 06f84353d 06f5eb3b9 129925.000000000 1

Объект 06e503809 лишний. И дальше еще появилось неизвестно откуда 37 объектов

**Eugene Lutsenko** » Пн авг 06, 2018 6:00 am

Дмитрий Бандык писал(а):Буду разбиратьтся. Имена как вижу пошли с начала списка. Где-то при разбиении выборки на части последняя часть пошла как равная по размеру с предыдущими. А должна быть короче. Исправлю.

После этого наверное модуль распознавания будет практически готов. Надо будет еще конечно проверить правильность результатов на малой выборке. Проверю. При завершении не выдал ошибку, написал нормальное сообщение о завершении работы. Я просто взял и сравнил в Excel колонку наименований объектов из файла результата (вида results_inf7k.csv) и из файла заголовков распознаваемой выборки (Rso_Zag.dbf). Там в результатах не только в конце объекты из начала списка. Еще и по всему списку вставлено по 1 объекту в разных местах с определенным шагом. Послал тебе на почту Excel-файл со сравнением. Может тебе поможет. Там появляется смещение в результате из-за дублирования объекта, и оно нарастает.

**Eugene Lutsenko** » Пн авг 06, 2018 6:49 am

Спасибо. Буду смотреть. Еще пожелание. Не мог бы не использовать серый цвет в прогресс-бар. Мне он не нравится.

После окончания работы модуля распознавания можно написать:

Распознавание завершено успешно! (полужирным)
Объектов распознаваемой выборки: #########
Классов: #########. Признаков: #########
Моделей: ##. Интегральных критериев: ##
Время исполнения: ## час. ## мин. ## сек.

А после модуля синтеза моделей:

Синтез моделей успешно завершен! (полужирным)
Объектов обучающей выборки: ########
Классов: #########. Признаков: #########
Моделей: ##. Время исполнения: ## час. ## мин. ## сек.

Как-то посимпатичнее выровнять на окошке

**Eugene Lutsenko** » Пн авг 06, 2018 7:16 am

OK. Тогда посмотрю я.

начал поиск самой достоверной модели по метрике Каггла (Среднеквадратическое отклонение логарифмов факта и прогноза (RMSLE) )

https://habr.com/post/176267/

**Eugene Lutsenko** » Пн авг 06, 2018 10:13 am

Дима!
Попробуй, плз, сделать формат матриц моделей таким, чтобы они считывались в системе Эйдос, например в режиме 5.5. Их структуры я привел выше. Конец строки CrLf

**Eugene Lutsenko** » Пн авг 06, 2018 10:59 am

Данные по достоверности моделей с различными инт.критериями:

Код: Выделить всё: Наим. Модели Достоверность модели Prc2i 36,28616 Prc1i 15,04822 Inf7i 10,65261 Absk 9,75555 Inf4i 8,18569 Inf2i 4,64230 Inf1i 4,14891 Inf6i 3,22942 Inf5i 2,71361 Absi 1,61471 Inf1k 1,07647 Inf4k 0,94192 Inf2k 0,58309 Inf6k 0,49338 Inf7k 0,33640 Inf3i 0,13456 Inf3k 0,08971 Среднее прогноз 0,06728 Prc1k 0,00000 Prc2k 0,00000 Inf5k 0,00000

Это доля случае в %, когда прогноз в данной модели с данным инт.критерием был наиболее точным (модуль абс.погрешности был минимальным)

**Eugene Lutsenko** » Пн авг 06, 2018 12:11 pm

Пытался найти наиболее достоверную модель по результатам распознавания обучающей выборки, чтобы потом использовать это при подготовке данных для Каггла после распознавания тестовой выборки. Откровенно говоря пока достоверность получилась так себе, не очень. Причем по разным критериям разные модели оказываются наиболее достоверными. Я сделал средневзвешенный прогноз из небольшого числа наиболее достоверных моделей, который тоже так себе.

Проверил все на моделях небольших размерностей. Все работает правильно, и система Эйдос, и Димины модули, и дают хорошие результаты, но не на этих данных.

Послал на почту

**Eugene Lutsenko** » Пн авг 06, 2018 12:42 pm

Ну да. запустил распознавание тестовой выборки Пишет, что займет чуть больше 20 минут. Потом сделаю два результата для Каггла: в наиболее достоверной модели согласно здравого смысла и по их критерию. Это разные модели

**Eugene Lutsenko** » Пн авг 06, 2018 2:21 pm

Модуль распознавания работал чуть меньше получаса (28 минут) и в конце после 100% выдал сообщение об ошибке памяти, а не о нормальном завершении.

Сейчас тоже можно кое-что сделать, типа того, что я делал в Excel.
Напишу тебе на почту, чтобы не пользовались конкуренты.

Но если это не учитывать, то результат уже получен. Но лучше учитывать. Дима! Может быть сделаешь модуль определения наилучшей модели по критерию RMSLE и подбора смещения результатов распознавания тестовой выборки по результатам распознавания обучающей выборки? Алгоритм и Ecel-файл с решением этой задачи я послал тебе и Александру Петровичу на почту

Chaos and Correlation

Santander Value Prediction Challenge

Re: Santander Value Prediction Challenge

Re: Santander Value Prediction Challenge

Re: Santander Value Prediction Challenge

Re: Santander Value Prediction Challenge

Re: Santander Value Prediction Challenge

Re: Santander Value Prediction Challenge

Re: Santander Value Prediction Challenge

Re: Santander Value Prediction Challenge

Re: Santander Value Prediction Challenge

Re: Santander Value Prediction Challenge

Кто сейчас на конференции