Страница 10 из 16
Re: Home Credit Default Risk
Добавлено:
Ср авг 22, 2018 8:32 pm
Eugene Lutsenko
Petrovich писал(а):Разместил, лучший результат 0.613 - модель k-inf1, место 6345 (почти конец). Лучший там результат 0.815 с 294 попытками. Можно еще посылать. Сегодня у них заканчивается регистрация. Но мы уже зарегистрировались, поэтому можем еще разместить.
Александр Петрович!
Я послал Вам на почту (и копию Диме) все мои результаты и все Димины результаты
Re: Home Credit Default Risk
Добавлено:
Ср авг 22, 2018 9:45 pm
Eugene Lutsenko
Александр Петрович!
Файлы:
Kaggle_k_Inf4.csv
Kaggle_k_Inf5.csv
Kaggle_k_Inf6.csv
Kaggle_k_Inf7.csv
Kaggle_k_Prc1.csv
не посылай. Я их уже послал и они не улучшили результат
Re: Home Credit Default Risk
Добавлено:
Чт авг 23, 2018 2:06 am
Eugene Lutsenko
Послал еще меандр (0, если <=0.5; 1, если >0.5 ), это ничего не дало, и еще 3 модели, это тоже не улучшило результат. Уже посланы модели:
Kaggle_i_Inf1.csv
Kaggle_i_Inf3.csv
Kaggle_i_Prc2.csv
Kaggle_k_Inf1.csv
Kaggle_k_Inf3.csv
Kaggle_k_Inf4.csv
Kaggle_k_Inf5.csv
Kaggle_k_Inf6.csv
Kaggle_k_Inf7.csv
Kaggle_k_Prc1.csv
Kaggle_k_Inf1_m.csv
Kaggle_i_Inf2.csv
Kaggle_i_Inf4.csv
Kaggle_i_Prc1.csv
Kaggle_k_Inf2.csv
Надо Диме тоже регистрироваться и посылать результаты в разных моделях. Тогда мы сможем испытывать в 3 раза больше моделей за то же время
Re: Home Credit Default Risk
Добавлено:
Чт авг 23, 2018 2:48 am
Eugene Lutsenko
Я думаю, надо провести улучшение обучающей выборки:
- можно просто оставить в ней только те объекты, которые больше всего похожи на обобщенные образы классов, а которые не очень похожи выбросить и не использовать для формирования обобщенных образов классов;
- но лучше провести кластерный анализ обучающей выборки и разбить классы на подклассы, а потом идентификацию с подклассом считать идентификацией с классом.
Это реализовано в системе Эйдос в режиме дивизивной кластеризации, но я использую 1-й вариант, как более простой. Первым шагом для этого после синтеза моделей является распознавание всей обучающей выборки. Это займет по прогнозу полтора часа. Потом запущу дивизивную кластеризацию и пересинтез моделей (сиснтез моделей занимает около получаса). А потом проведу распознавание в новых моделях (15 минут в одной модели) и будем посылать новые результаты. Для всего этого решил использовать модель inf1k (inf2k от нее в этом смысле не отличается), как наиболее достоверную по критерию Каггла.
Можно также просто не учитывать малоинформативные признаки.
В перспективе Дима сможет реализовать эти подходы прямо при формализации предметной области, т.е. еще на этапе формирования справочников классов и признаков. Я тоже хочу это сделать, но у меня это будет работать только на не очень больших выборках. Это и есть суть того, что я хотел рассказать Диме по Скайпу. Но на словах я бы еще привел наглядные примеры того, как это работает.
Re: Home Credit Default Risk
Добавлено:
Чт авг 23, 2018 4:40 am
Eugene Lutsenko
Дмитрий Бандык писал(а):Давайте пообщаемся по Скайпу. Можно сегодня, завтра или на выходных.
Можно хоть сейчас, а можно вечером, как тебе удобно. В принципе много времени не потребуется
Re: Home Credit Default Risk
Добавлено:
Чт авг 23, 2018 8:22 am
Petrovich
Нет, не успели, они уже закрыл прием файлов.
Re: Home Credit Default Risk
Добавлено:
Чт авг 23, 2018 9:24 am
Eugene Lutsenko
Petrovich писал(а):Нет, не успели, они уже закрыл прием файлов.
Я так понял, что в этой задаче еще 7 дней будут принимать данные (по 5 результатов), следующую порцию через 14 часов можно будет записать мне 5 результатов, и тебе 5, и Диме, если он зарегистрируется 5. Такое уже было вчера. Я записал результаты и появилось сообщение, что через определенное время можно будет записать еще. Я через это время и записал еще.
https://www.kaggle.com/c/home-credit-de ... isk/submit
Re: Home Credit Default Risk
Добавлено:
Чт авг 23, 2018 5:47 pm
Petrovich
Отгрузил 5 файлов - из них три от Димы. Все оказались на уровне 0.5. Пока 0.613 это потолок для Эйдос.
Re: Home Credit Default Risk
Добавлено:
Чт авг 23, 2018 5:53 pm
Eugene Lutsenko
Сейчас я пришлю на почту новые файлы, полученные в модели, сделанной на основе очищенной обучающей выборки.
Эта модель очень хорошая:
Petrovich писал(а):Пока 0.613 это потолок для Эйдос.
Это потолок не совсем для Эйдос, а скорее для меня по времени. Я ведь вообще не использовал никаких дополнительных баз данных. Даже в основной таблице не использовал текстовых колонок. Не реализовал всех возможностей улучшения моделей, например не пробовал разного числа интервалов, адаптивных интервалов и т.п.
Re: Home Credit Default Risk
Добавлено:
Пт авг 24, 2018 3:05 am
Eugene Lutsenko
Странно. У меня все работает очень быстро. Может быть ты не убрал перед отправкой пустую строку в самом начале? Они об ошибках в посылаемых файлах сообщают в самом начале страницы на красном фоне. Или у них что-то у них там действительно случилось, как я понял.
А под каким именем ты зарегистрировался?
Мои надежды на то, что в модели на очищенной обучающей выборке получатся лучшие результаты, не оправдались. Действительно результат 0,613 не улучшен. Файлы, которые я послал:
Kaggle_k_Inf1.csv
Kaggle_k_Inf2.csv
Kaggle_k_Inf3.csv
Kaggle_k_Inf4.csv
Kaggle_k_Inf5.csv
Может это и действительно потолок для Эйдос на том фрагменте данных, который я использовал.
Я уже подумал, что нужно тупо сравнить (например просто корреляцией) каждый объект тестирующей выборки со всеми объектами обучающей выборки (исходные матрицы Inp_data.xlsx и Inp_rasp.xlsx есть в моделях в облаке в папке: c:\Aidos-X\AID_DATA\Inp_data), выбрать из них например 70% наиболее похожих, посчитать процент "1" в target этих объектов и вывести его в качестве результата (это метод k-ближайших соседей). Все предельно просто. Но расчетов много: 307 тыс. * 48 тыс. Но у Димы это должно получиться просто и работать будет быстро.