[phpBB Debug] PHP Notice: in file /viewtopic.php on line 981: date(): It is not safe to rely on the system's timezone settings. You are *required* to use the date.timezone setting or the date_default_timezone_set() function. In case you used any of those methods and you are still getting this warning, you most likely misspelled the timezone identifier. We selected the timezone 'UTC' for now, but please set date.timezone to select your timezone.
[phpBB Debug] PHP Notice: in file /viewtopic.php on line 981: getdate(): It is not safe to rely on the system's timezone settings. You are *required* to use the date.timezone setting or the date_default_timezone_set() function. In case you used any of those methods and you are still getting this warning, you most likely misspelled the timezone identifier. We selected the timezone 'UTC' for now, but please set date.timezone to select your timezone.
[phpBB Debug] PHP Notice: in file /includes/functions.php on line 4183: Cannot modify header information - headers already sent by (output started at /includes/functions.php:3493)
[phpBB Debug] PHP Notice: in file /includes/functions.php on line 4185: Cannot modify header information - headers already sent by (output started at /includes/functions.php:3493)
[phpBB Debug] PHP Notice: in file /includes/functions.php on line 4186: Cannot modify header information - headers already sent by (output started at /includes/functions.php:3493)
[phpBB Debug] PHP Notice: in file /includes/functions.php on line 4187: Cannot modify header information - headers already sent by (output started at /includes/functions.php:3493)
Chaos and Correlation • Просмотр темы - Home Credit Default Risk

Home Credit Default Risk

Модераторы: ТВЧ, Petrovich

Re: Home Credit Default Risk

Сообщение Eugene Lutsenko » Ср авг 22, 2018 8:32 pm

Petrovich писал(а):Разместил, лучший результат 0.613 - модель k-inf1, место 6345 (почти конец). Лучший там результат 0.815 с 294 попытками. Можно еще посылать. Сегодня у них заканчивается регистрация. Но мы уже зарегистрировались, поэтому можем еще разместить.

Александр Петрович!
Я послал Вам на почту (и копию Диме) все мои результаты и все Димины результаты
Аватара пользователя
Eugene Lutsenko
 
Сообщения: 9738
Зарегистрирован: Вт мар 09, 2010 6:11 am
Откуда: Krasnodar, Russia

Re: Home Credit Default Risk

Сообщение Eugene Lutsenko » Ср авг 22, 2018 9:45 pm

Александр Петрович!

Файлы:

Kaggle_k_Inf4.csv
Kaggle_k_Inf5.csv
Kaggle_k_Inf6.csv
Kaggle_k_Inf7.csv
Kaggle_k_Prc1.csv

не посылай. Я их уже послал и они не улучшили результат
Аватара пользователя
Eugene Lutsenko
 
Сообщения: 9738
Зарегистрирован: Вт мар 09, 2010 6:11 am
Откуда: Krasnodar, Russia

Re: Home Credit Default Risk

Сообщение Eugene Lutsenko » Чт авг 23, 2018 2:06 am

Послал еще меандр (0, если <=0.5; 1, если >0.5 ), это ничего не дало, и еще 3 модели, это тоже не улучшило результат. Уже посланы модели:

Kaggle_i_Inf1.csv
Kaggle_i_Inf3.csv
Kaggle_i_Prc2.csv
Kaggle_k_Inf1.csv
Kaggle_k_Inf3.csv

Kaggle_k_Inf4.csv
Kaggle_k_Inf5.csv
Kaggle_k_Inf6.csv
Kaggle_k_Inf7.csv
Kaggle_k_Prc1.csv

Kaggle_k_Inf1_m.csv
Kaggle_i_Inf2.csv
Kaggle_i_Inf4.csv
Kaggle_i_Prc1.csv
Kaggle_k_Inf2.csv

Надо Диме тоже регистрироваться и посылать результаты в разных моделях. Тогда мы сможем испытывать в 3 раза больше моделей за то же время
Аватара пользователя
Eugene Lutsenko
 
Сообщения: 9738
Зарегистрирован: Вт мар 09, 2010 6:11 am
Откуда: Krasnodar, Russia

Re: Home Credit Default Risk

Сообщение Eugene Lutsenko » Чт авг 23, 2018 2:48 am

Я думаю, надо провести улучшение обучающей выборки:

- можно просто оставить в ней только те объекты, которые больше всего похожи на обобщенные образы классов, а которые не очень похожи выбросить и не использовать для формирования обобщенных образов классов;

- но лучше провести кластерный анализ обучающей выборки и разбить классы на подклассы, а потом идентификацию с подклассом считать идентификацией с классом.

Это реализовано в системе Эйдос в режиме дивизивной кластеризации, но я использую 1-й вариант, как более простой. Первым шагом для этого после синтеза моделей является распознавание всей обучающей выборки. Это займет по прогнозу полтора часа. Потом запущу дивизивную кластеризацию и пересинтез моделей (сиснтез моделей занимает около получаса). А потом проведу распознавание в новых моделях (15 минут в одной модели) и будем посылать новые результаты. Для всего этого решил использовать модель inf1k (inf2k от нее в этом смысле не отличается), как наиболее достоверную по критерию Каггла.

Можно также просто не учитывать малоинформативные признаки.

В перспективе Дима сможет реализовать эти подходы прямо при формализации предметной области, т.е. еще на этапе формирования справочников классов и признаков. Я тоже хочу это сделать, но у меня это будет работать только на не очень больших выборках. Это и есть суть того, что я хотел рассказать Диме по Скайпу. Но на словах я бы еще привел наглядные примеры того, как это работает.
Аватара пользователя
Eugene Lutsenko
 
Сообщения: 9738
Зарегистрирован: Вт мар 09, 2010 6:11 am
Откуда: Krasnodar, Russia

Re: Home Credit Default Risk

Сообщение Eugene Lutsenko » Чт авг 23, 2018 4:40 am

Дмитрий Бандык писал(а):Давайте пообщаемся по Скайпу. Можно сегодня, завтра или на выходных.

Можно хоть сейчас, а можно вечером, как тебе удобно. В принципе много времени не потребуется
Аватара пользователя
Eugene Lutsenko
 
Сообщения: 9738
Зарегистрирован: Вт мар 09, 2010 6:11 am
Откуда: Krasnodar, Russia

Re: Home Credit Default Risk

Сообщение Petrovich » Чт авг 23, 2018 8:22 am

Нет, не успели, они уже закрыл прием файлов.
Аватара пользователя
Petrovich
Site Admin
 
Сообщения: 10258
Зарегистрирован: Сб мар 06, 2010 12:05 pm
Откуда: Toronto, Canada

Re: Home Credit Default Risk

Сообщение Eugene Lutsenko » Чт авг 23, 2018 9:24 am

Petrovich писал(а):Нет, не успели, они уже закрыл прием файлов.

Я так понял, что в этой задаче еще 7 дней будут принимать данные (по 5 результатов), следующую порцию через 14 часов можно будет записать мне 5 результатов, и тебе 5, и Диме, если он зарегистрируется 5. Такое уже было вчера. Я записал результаты и появилось сообщение, что через определенное время можно будет записать еще. Я через это время и записал еще.
https://www.kaggle.com/c/home-credit-de ... isk/submit
Изображение
Аватара пользователя
Eugene Lutsenko
 
Сообщения: 9738
Зарегистрирован: Вт мар 09, 2010 6:11 am
Откуда: Krasnodar, Russia

Re: Home Credit Default Risk

Сообщение Petrovich » Чт авг 23, 2018 5:47 pm

Отгрузил 5 файлов - из них три от Димы. Все оказались на уровне 0.5. Пока 0.613 это потолок для Эйдос.
Аватара пользователя
Petrovich
Site Admin
 
Сообщения: 10258
Зарегистрирован: Сб мар 06, 2010 12:05 pm
Откуда: Toronto, Canada

Re: Home Credit Default Risk

Сообщение Eugene Lutsenko » Чт авг 23, 2018 5:53 pm

Сейчас я пришлю на почту новые файлы, полученные в модели, сделанной на основе очищенной обучающей выборки.
Эта модель очень хорошая:
Изображение
Изображение
Petrovich писал(а):Пока 0.613 это потолок для Эйдос.

Это потолок не совсем для Эйдос, а скорее для меня по времени. Я ведь вообще не использовал никаких дополнительных баз данных. Даже в основной таблице не использовал текстовых колонок. Не реализовал всех возможностей улучшения моделей, например не пробовал разного числа интервалов, адаптивных интервалов и т.п.
Аватара пользователя
Eugene Lutsenko
 
Сообщения: 9738
Зарегистрирован: Вт мар 09, 2010 6:11 am
Откуда: Krasnodar, Russia

Re: Home Credit Default Risk

Сообщение Eugene Lutsenko » Пт авг 24, 2018 3:05 am

Странно. У меня все работает очень быстро. Может быть ты не убрал перед отправкой пустую строку в самом начале? Они об ошибках в посылаемых файлах сообщают в самом начале страницы на красном фоне. Или у них что-то у них там действительно случилось, как я понял.

А под каким именем ты зарегистрировался?

Мои надежды на то, что в модели на очищенной обучающей выборке получатся лучшие результаты, не оправдались. Действительно результат 0,613 не улучшен. Файлы, которые я послал:

Kaggle_k_Inf1.csv
Kaggle_k_Inf2.csv
Kaggle_k_Inf3.csv
Kaggle_k_Inf4.csv
Kaggle_k_Inf5.csv

Может это и действительно потолок для Эйдос на том фрагменте данных, который я использовал.

Я уже подумал, что нужно тупо сравнить (например просто корреляцией) каждый объект тестирующей выборки со всеми объектами обучающей выборки (исходные матрицы Inp_data.xlsx и Inp_rasp.xlsx есть в моделях в облаке в папке: c:\Aidos-X\AID_DATA\Inp_data), выбрать из них например 70% наиболее похожих, посчитать процент "1" в target этих объектов и вывести его в качестве результата (это метод k-ближайших соседей). Все предельно просто. Но расчетов много: 307 тыс. * 48 тыс. Но у Димы это должно получиться просто и работать будет быстро.
Аватара пользователя
Eugene Lutsenko
 
Сообщения: 9738
Зарегистрирован: Вт мар 09, 2010 6:11 am
Откуда: Krasnodar, Russia

Пред.След.

Вернуться в Chaos and Correlation

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 1

cron