Chaos and Correlation

**Petrovich** » Ср авг 22, 2018 2:14 pm

Разместил, лучший результат 0.613 - модель k-inf1, место 6345 (почти конец). Лучший там результат 0.815 с 294 попытками. Можно еще посылать. Сегодня у них заканчивается регистрация. Но мы уже зарегистрировались, поэтому можем еще разместить.

**Eugene Lutsenko** » Ср авг 22, 2018 5:28 pm

https://www.kaggle.com/c/home-credit-de ... evaluation
https://en.wikipedia.org/wiki/Receiver_ ... acteristic

Можно попробовать поразмещать Димины результаты. Они отличаются от моих. Я их присылал раньше. Могу еще прислать Димины и свои по тем моделям, по которым еще не присылал

**Eugene Lutsenko** » Ср авг 22, 2018 7:14 pm

Наверное надо переходить на это:
http://rodrigob.github.io/are_we_there_ ... 4d4e495354
https://geekbrains.ru/posts/deep_learning_guide

**Eugene Lutsenko** » Ср авг 22, 2018 8:32 pm

Petrovich писал(а):Разместил, лучший результат 0.613 - модель k-inf1, место 6345 (почти конец). Лучший там результат 0.815 с 294 попытками. Можно еще посылать. Сегодня у них заканчивается регистрация. Но мы уже зарегистрировались, поэтому можем еще разместить.

Александр Петрович!
Я послал Вам на почту (и копию Диме) все мои результаты и все Димины результаты

**Eugene Lutsenko** » Ср авг 22, 2018 9:45 pm

Александр Петрович!

Файлы:

Kaggle_k_Inf4.csv
Kaggle_k_Inf5.csv
Kaggle_k_Inf6.csv
Kaggle_k_Inf7.csv
Kaggle_k_Prc1.csv

не посылай. Я их уже послал и они не улучшили результат

**Eugene Lutsenko** » Чт авг 23, 2018 2:06 am

Послал еще меандр (0, если <=0.5; 1, если >0.5 ), это ничего не дало, и еще 3 модели, это тоже не улучшило результат. Уже посланы модели:

Kaggle_i_Inf1.csv
Kaggle_i_Inf3.csv
Kaggle_i_Prc2.csv
Kaggle_k_Inf1.csv
Kaggle_k_Inf3.csv

Kaggle_k_Inf4.csv
Kaggle_k_Inf5.csv
Kaggle_k_Inf6.csv
Kaggle_k_Inf7.csv
Kaggle_k_Prc1.csv

Kaggle_k_Inf1_m.csv
Kaggle_i_Inf2.csv
Kaggle_i_Inf4.csv
Kaggle_i_Prc1.csv
Kaggle_k_Inf2.csv

Надо Диме тоже регистрироваться и посылать результаты в разных моделях. Тогда мы сможем испытывать в 3 раза больше моделей за то же время

**Eugene Lutsenko** » Чт авг 23, 2018 2:48 am

Я думаю, надо провести улучшение обучающей выборки:

- можно просто оставить в ней только те объекты, которые больше всего похожи на обобщенные образы классов, а которые не очень похожи выбросить и не использовать для формирования обобщенных образов классов;

- но лучше провести кластерный анализ обучающей выборки и разбить классы на подклассы, а потом идентификацию с подклассом считать идентификацией с классом.

Это реализовано в системе Эйдос в режиме дивизивной кластеризации, но я использую 1-й вариант, как более простой. Первым шагом для этого после синтеза моделей является распознавание всей обучающей выборки. Это займет по прогнозу полтора часа. Потом запущу дивизивную кластеризацию и пересинтез моделей (сиснтез моделей занимает около получаса). А потом проведу распознавание в новых моделях (15 минут в одной модели) и будем посылать новые результаты. Для всего этого решил использовать модель inf1k (inf2k от нее в этом смысле не отличается), как наиболее достоверную по критерию Каггла.

Можно также просто не учитывать малоинформативные признаки.

В перспективе Дима сможет реализовать эти подходы прямо при формализации предметной области, т.е. еще на этапе формирования справочников классов и признаков. Я тоже хочу это сделать, но у меня это будет работать только на не очень больших выборках. Это и есть суть того, что я хотел рассказать Диме по Скайпу. Но на словах я бы еще привел наглядные примеры того, как это работает.

**Eugene Lutsenko** » Чт авг 23, 2018 4:40 am

Дмитрий Бандык писал(а):Давайте пообщаемся по Скайпу. Можно сегодня, завтра или на выходных.

Можно хоть сейчас, а можно вечером, как тебе удобно. В принципе много времени не потребуется

**Petrovich** » Чт авг 23, 2018 8:22 am

Нет, не успели, они уже закрыл прием файлов.

**Eugene Lutsenko** » Чт авг 23, 2018 9:24 am

Petrovich писал(а):Нет, не успели, они уже закрыл прием файлов.

Я так понял, что в этой задаче еще 7 дней будут принимать данные (по 5 результатов), следующую порцию через 14 часов можно будет записать мне 5 результатов, и тебе 5, и Диме, если он зарегистрируется 5. Такое уже было вчера. Я записал результаты и появилось сообщение, что через определенное время можно будет записать еще. Я через это время и записал еще.
https://www.kaggle.com/c/home-credit-de ... isk/submit

Chaos and Correlation

Home Credit Default Risk

Re: Home Credit Default Risk

Re: Home Credit Default Risk

Re: Home Credit Default Risk

Re: Home Credit Default Risk

Re: Home Credit Default Risk

Re: Home Credit Default Risk

Re: Home Credit Default Risk

Re: Home Credit Default Risk

Re: Home Credit Default Risk

Re: Home Credit Default Risk

Кто сейчас на конференции