Re: Home Credit Default Risk
Добавлено: Чт авг 23, 2018 5:47 pm
Отгрузил 5 файлов - из них три от Димы. Все оказались на уровне 0.5. Пока 0.613 это потолок для Эйдос.
International Journal
http://chaosandcorrelation.org/ForumCC/
http://chaosandcorrelation.org/ForumCC/viewtopic.php?f=1&t=587
Petrovich писал(а):Пока 0.613 это потолок для Эйдос.
Дмитрий Бандык писал(а):Я действительно забыл убрать пустую строку вначале. Но ничего не написало, стало обрабатывать. А сейчас вообще не могу найти где это всё.
Дмитрий Бандык писал(а):Имя dmitrybandyk1976
Дмитрий Бандык писал(а):Я же и говорю как получилось - я вчера попытался но видимо из-за того что не удалил вначале пустую строку сайт видимо не смог переварить. А сегодня утром уже было поздно.
А там можно выкладывать сразу 5 файлов? Я выложил только один потому что загрузка не поддерживала несколько файлов. Если только запаковать их в архив может быть?
Eugene Lutsenko писал(а):Странно. У меня все работает очень быстро. Может быть ты не убрал перед отправкой пустую строку в самом начале? Они об ошибках в посылаемых файлах сообщают в самом начале страницы на красном фоне. Или у них что-то у них там действительно случилось, как я понял.
А под каким именем ты зарегистрировался?
Мои надежды на то, что в модели на очищенной обучающей выборке получатся лучшие результаты, не оправдались. Действительно результат 0,613 не улучшен. Файлы, которые я послал:
Kaggle_k_Inf1.csv
Kaggle_k_Inf2.csv
Kaggle_k_Inf3.csv
Kaggle_k_Inf4.csv
Kaggle_k_Inf5.csv
Может это и действительно потолок для Эйдос на том фрагменте данных, который я использовал.
Я уже подумал, что нужно тупо сравнить (например просто корреляцией) каждый объект тестирующей выборки со всеми объектами обучающей выборки (исходные матрицы Inp_data.xlsx и Inp_rasp.xlsx есть в моделях в облаке в папке: c:\Aidos-X\AID_DATA\Inp_data), выбрать из них например 70% наиболее похожих, посчитать процент "1" в target этих объектов и вывести его в качестве результата (это метод k-ближайших соседей). Все предельно просто. Но расчетов много: 307 тыс. * 48 тыс. Но у Димы это должно получиться просто и работать будет быстро.
Petrovich писал(а):Здесь нужен интеллект, а не просто распознавание. Я на прошлой задаче 6 лет назад использовал сходящийся алгоритм примерно как подгонка модели под численный результат. И тогда удалось перейти их критерий и продвинутся довольно сильно, тогда как с помощью Эйдос тогда мы сильно пролетели мимо. Но я использовал свой интеллект.
Eugene Lutsenko писал(а):Petrovich писал(а):Здесь нужен интеллект, а не просто распознавание. Я на прошлой задаче 6 лет назад использовал сходящийся алгоритм примерно как подгонка модели под численный результат. И тогда удалось перейти их критерий и продвинутся довольно сильно, тогда как с помощью Эйдос тогда мы сильно пролетели мимо. Но я использовал свой интеллект.
Я тоже так понял, что надо не просто решать задачу с помощью системы, а надо решать задачу с помощью своего интеллекта, системы и самого Каггла, т.к. оценка достоверности моделей в системе "Эйдос" дает другие результаты, чем Каггл, малоэффективна и в общем бесполезна (в данном случае). Лидеры конкурсов Каггла давно это поняли, что Каггл надо использовать как часть решения. Поэтому у них так много попыток. Они используют поиск решения, как в игре "Быки и коровы". Согласен с тем, что это не задача распознавания в чистом виде, а скорее задача какого-то интеллектуального итерационного поиска с обратной связью. Эту задачу и надо решать! Надо решать не ту задачу, которую мы можем решать, а ту задачу, которая ставится заказчиком. И хорошо, если эти задачи совпадают. Мы ищем упавшее кольцо под фонарем, потому что там можем его найти. А оно может находится под фонарем (тогда нам повезло), а может быть и не под ним. И тогда мы пролетаем. А надо искать его таким методом, чтобы не играло роли, под фонарем оно и или нет.