Chaos and Correlation

**Eugene Lutsenko** » Ср авг 22, 2018 8:32 pm

Petrovich писал(а):Разместил, лучший результат 0.613 - модель k-inf1, место 6345 (почти конец). Лучший там результат 0.815 с 294 попытками. Можно еще посылать. Сегодня у них заканчивается регистрация. Но мы уже зарегистрировались, поэтому можем еще разместить.

Александр Петрович!
Я послал Вам на почту (и копию Диме) все мои результаты и все Димины результаты

**Eugene Lutsenko** » Ср авг 22, 2018 9:45 pm

Александр Петрович!

Файлы:

Kaggle_k_Inf4.csv
Kaggle_k_Inf5.csv
Kaggle_k_Inf6.csv
Kaggle_k_Inf7.csv
Kaggle_k_Prc1.csv

не посылай. Я их уже послал и они не улучшили результат

**Eugene Lutsenko** » Чт авг 23, 2018 2:06 am

Послал еще меандр (0, если <=0.5; 1, если >0.5 ), это ничего не дало, и еще 3 модели, это тоже не улучшило результат. Уже посланы модели:

Kaggle_i_Inf1.csv
Kaggle_i_Inf3.csv
Kaggle_i_Prc2.csv
Kaggle_k_Inf1.csv
Kaggle_k_Inf3.csv

Kaggle_k_Inf4.csv
Kaggle_k_Inf5.csv
Kaggle_k_Inf6.csv
Kaggle_k_Inf7.csv
Kaggle_k_Prc1.csv

Kaggle_k_Inf1_m.csv
Kaggle_i_Inf2.csv
Kaggle_i_Inf4.csv
Kaggle_i_Prc1.csv
Kaggle_k_Inf2.csv

Надо Диме тоже регистрироваться и посылать результаты в разных моделях. Тогда мы сможем испытывать в 3 раза больше моделей за то же время

**Eugene Lutsenko** » Чт авг 23, 2018 2:48 am

Я думаю, надо провести улучшение обучающей выборки:

- можно просто оставить в ней только те объекты, которые больше всего похожи на обобщенные образы классов, а которые не очень похожи выбросить и не использовать для формирования обобщенных образов классов;

- но лучше провести кластерный анализ обучающей выборки и разбить классы на подклассы, а потом идентификацию с подклассом считать идентификацией с классом.

Это реализовано в системе Эйдос в режиме дивизивной кластеризации, но я использую 1-й вариант, как более простой. Первым шагом для этого после синтеза моделей является распознавание всей обучающей выборки. Это займет по прогнозу полтора часа. Потом запущу дивизивную кластеризацию и пересинтез моделей (сиснтез моделей занимает около получаса). А потом проведу распознавание в новых моделях (15 минут в одной модели) и будем посылать новые результаты. Для всего этого решил использовать модель inf1k (inf2k от нее в этом смысле не отличается), как наиболее достоверную по критерию Каггла.

Можно также просто не учитывать малоинформативные признаки.

В перспективе Дима сможет реализовать эти подходы прямо при формализации предметной области, т.е. еще на этапе формирования справочников классов и признаков. Я тоже хочу это сделать, но у меня это будет работать только на не очень больших выборках. Это и есть суть того, что я хотел рассказать Диме по Скайпу. Но на словах я бы еще привел наглядные примеры того, как это работает.

**Eugene Lutsenko** » Чт авг 23, 2018 4:40 am

Дмитрий Бандык писал(а):Давайте пообщаемся по Скайпу. Можно сегодня, завтра или на выходных.

Можно хоть сейчас, а можно вечером, как тебе удобно. В принципе много времени не потребуется

**Petrovich** » Чт авг 23, 2018 8:22 am

Нет, не успели, они уже закрыл прием файлов.

**Eugene Lutsenko** » Чт авг 23, 2018 9:24 am

Petrovich писал(а):Нет, не успели, они уже закрыл прием файлов.

Я так понял, что в этой задаче еще 7 дней будут принимать данные (по 5 результатов), следующую порцию через 14 часов можно будет записать мне 5 результатов, и тебе 5, и Диме, если он зарегистрируется 5. Такое уже было вчера. Я записал результаты и появилось сообщение, что через определенное время можно будет записать еще. Я через это время и записал еще.
https://www.kaggle.com/c/home-credit-de ... isk/submit

**Petrovich** » Чт авг 23, 2018 5:47 pm

Отгрузил 5 файлов - из них три от Димы. Все оказались на уровне 0.5. Пока 0.613 это потолок для Эйдос.

**Eugene Lutsenko** » Чт авг 23, 2018 5:53 pm

Сейчас я пришлю на почту новые файлы, полученные в модели, сделанной на основе очищенной обучающей выборки.
Эта модель очень хорошая:

Petrovich писал(а):Пока 0.613 это потолок для Эйдос.

Это потолок не совсем для Эйдос, а скорее для меня по времени. Я ведь вообще не использовал никаких дополнительных баз данных. Даже в основной таблице не использовал текстовых колонок. Не реализовал всех возможностей улучшения моделей, например не пробовал разного числа интервалов, адаптивных интервалов и т.п.

**Eugene Lutsenko** » Пт авг 24, 2018 3:05 am

Странно. У меня все работает очень быстро. Может быть ты не убрал перед отправкой пустую строку в самом начале? Они об ошибках в посылаемых файлах сообщают в самом начале страницы на красном фоне. Или у них что-то у них там действительно случилось, как я понял.

А под каким именем ты зарегистрировался?

Мои надежды на то, что в модели на очищенной обучающей выборке получатся лучшие результаты, не оправдались. Действительно результат 0,613 не улучшен. Файлы, которые я послал:

Kaggle_k_Inf1.csv
Kaggle_k_Inf2.csv
Kaggle_k_Inf3.csv
Kaggle_k_Inf4.csv
Kaggle_k_Inf5.csv

Может это и действительно потолок для Эйдос на том фрагменте данных, который я использовал.

Я уже подумал, что нужно тупо сравнить (например просто корреляцией) каждый объект тестирующей выборки со всеми объектами обучающей выборки (исходные матрицы Inp_data.xlsx и Inp_rasp.xlsx есть в моделях в облаке в папке: c:\Aidos-X\AID_DATA\Inp_data), выбрать из них например 70% наиболее похожих, посчитать процент "1" в target этих объектов и вывести его в качестве результата (это метод k-ближайших соседей). Все предельно просто. Но расчетов много: 307 тыс. * 48 тыс. Но у Димы это должно получиться просто и работать будет быстро.

Chaos and Correlation

Home Credit Default Risk

Re: Home Credit Default Risk

Re: Home Credit Default Risk

Re: Home Credit Default Risk

Re: Home Credit Default Risk

Re: Home Credit Default Risk

Re: Home Credit Default Risk

Re: Home Credit Default Risk

Re: Home Credit Default Risk

Re: Home Credit Default Risk

Re: Home Credit Default Risk

Кто сейчас на конференции