Chaos and Correlation

Добавлено: **Чт авг 23, 2018 5:47 pm**

Отгрузил 5 файлов - из них три от Димы. Все оказались на уровне 0.5. Пока 0.613 это потолок для Эйдос.

Добавлено: **Чт авг 23, 2018 5:53 pm**

Сейчас я пришлю на почту новые файлы, полученные в модели, сделанной на основе очищенной обучающей выборки.
Эта модель очень хорошая:

Petrovich писал(а):Пока 0.613 это потолок для Эйдос.

Это потолок не совсем для Эйдос, а скорее для меня по времени. Я ведь вообще не использовал никаких дополнительных баз данных. Даже в основной таблице не использовал текстовых колонок. Не реализовал всех возможностей улучшения моделей, например не пробовал разного числа интервалов, адаптивных интервалов и т.п.

Добавлено: **Пт авг 24, 2018 3:05 am**

Странно. У меня все работает очень быстро. Может быть ты не убрал перед отправкой пустую строку в самом начале? Они об ошибках в посылаемых файлах сообщают в самом начале страницы на красном фоне. Или у них что-то у них там действительно случилось, как я понял.

А под каким именем ты зарегистрировался?

Мои надежды на то, что в модели на очищенной обучающей выборке получатся лучшие результаты, не оправдались. Действительно результат 0,613 не улучшен. Файлы, которые я послал:

Kaggle_k_Inf1.csv
Kaggle_k_Inf2.csv
Kaggle_k_Inf3.csv
Kaggle_k_Inf4.csv
Kaggle_k_Inf5.csv

Может это и действительно потолок для Эйдос на том фрагменте данных, который я использовал.

Я уже подумал, что нужно тупо сравнить (например просто корреляцией) каждый объект тестирующей выборки со всеми объектами обучающей выборки (исходные матрицы Inp_data.xlsx и Inp_rasp.xlsx есть в моделях в облаке в папке: c:\Aidos-X\AID_DATA\Inp_data), выбрать из них например 70% наиболее похожих, посчитать процент "1" в target этих объектов и вывести его в качестве результата (это метод k-ближайших соседей). Все предельно просто. Но расчетов много: 307 тыс. * 48 тыс. Но у Димы это должно получиться просто и работать будет быстро.

Добавлено: **Пт авг 24, 2018 4:15 am**

Дмитрий Бандык писал(а):Я действительно забыл убрать пустую строку вначале. Но ничего не написало, стало обрабатывать. А сейчас вообще не могу найти где это всё.

Здесь: https://www.kaggle.com/c/home-credit-de ... isk/submit

Добавлено: **Пт авг 24, 2018 4:20 am**

Если ее чуть-чуть прокрутить там есть справа большого размера символ Upload.

Результаты по твоими файлам есть здесь:
https://www.kaggle.com/c/home-credit-de ... ubmissions

И по всем здесь:
https://www.kaggle.com/c/home-credit-de ... eaderboard

И еще оценка результат выводится сразу после его загрузки.

С каким именем ты зарегистрировался?

Добавлено: **Пт авг 24, 2018 7:50 am**

Дмитрий Бандык писал(а):Имя dmitrybandyk1976

А ты, что файлы результатов не размещал?

Добавлено: **Пт авг 24, 2018 9:26 am**

Дмитрий Бандык писал(а):Я же и говорю как получилось - я вчера попытался но видимо из-за того что не удалил вначале пустую строку сайт видимо не смог переварить. А сегодня утром уже было поздно.

А там можно выкладывать сразу 5 файлов? Я выложил только один потому что загрузка не поддерживала несколько файлов. Если только запаковать их в архив может быть?

Надо загружать по очереди, один за одним, но предварительон каждый файл надо оценить. сразу после загрузки.

Добавлено: **Пт авг 24, 2018 9:33 am**

Eugene Lutsenko писал(а):Странно. У меня все работает очень быстро. Может быть ты не убрал перед отправкой пустую строку в самом начале? Они об ошибках в посылаемых файлах сообщают в самом начале страницы на красном фоне. Или у них что-то у них там действительно случилось, как я понял.

А под каким именем ты зарегистрировался?

Мои надежды на то, что в модели на очищенной обучающей выборке получатся лучшие результаты, не оправдались. Действительно результат 0,613 не улучшен. Файлы, которые я послал:

Kaggle_k_Inf1.csv
Kaggle_k_Inf2.csv
Kaggle_k_Inf3.csv
Kaggle_k_Inf4.csv
Kaggle_k_Inf5.csv

Может это и действительно потолок для Эйдос на том фрагменте данных, который я использовал.

Я уже подумал, что нужно тупо сравнить (например просто корреляцией) каждый объект тестирующей выборки со всеми объектами обучающей выборки (исходные матрицы Inp_data.xlsx и Inp_rasp.xlsx есть в моделях в облаке в папке: c:\Aidos-X\AID_DATA\Inp_data), выбрать из них например 70% наиболее похожих, посчитать процент "1" в target этих объектов и вывести его в качестве результата (это метод k-ближайших соседей). Все предельно просто. Но расчетов много: 307 тыс. * 48 тыс. Но у Димы это должно получиться просто и работать будет быстро.

Здесь нужен интеллект, а не просто распознавание. Я на прошлой задаче 6 лет назад использовал сходящийся алгоритм примерно как подгонка модели под численный результат. И тогда удалось перейти их критерий и продвинутся довольно сильно, тогда как с помощью Эйдос тогда мы сильно пролетели мимо. Но я использовал свой интеллект.

Добавлено: **Пт авг 24, 2018 11:31 am**

Petrovich писал(а):Здесь нужен интеллект, а не просто распознавание. Я на прошлой задаче 6 лет назад использовал сходящийся алгоритм примерно как подгонка модели под численный результат. И тогда удалось перейти их критерий и продвинутся довольно сильно, тогда как с помощью Эйдос тогда мы сильно пролетели мимо. Но я использовал свой интеллект.

Я тоже так понял, что надо не просто решать задачу с помощью системы, а надо решать задачу с помощью своего интеллекта, системы и самого Каггла, т.к. оценка достоверности моделей в системе "Эйдос" дает другие результаты, чем Каггл, малоэффективна и в общем бесполезна (в данном случае). Лидеры конкурсов Каггла давно это поняли, что Каггл надо использовать как часть решения. Поэтому у них так много попыток. Они используют поиск решения, как в игре "Быки и коровы". Согласен с тем, что это не задача распознавания в чистом виде, а скорее задача какого-то интеллектуального итерационного поиска с обратной связью. Эту задачу и надо решать! Надо решать не ту задачу, которую мы можем решать, а ту задачу, которая ставится заказчиком. И хорошо, если эти задачи совпадают. Мы ищем упавшее кольцо под фонарем, потому что там можем его найти. А оно может находится под фонарем (тогда нам повезло), а может быть и не под ним. И тогда мы пролетаем. А надо искать его таким методом, чтобы не играло роли, под фонарем оно и или нет.

Добавлено: **Сб авг 25, 2018 5:55 pm**

Eugene Lutsenko писал(а):
Petrovich писал(а):Здесь нужен интеллект, а не просто распознавание. Я на прошлой задаче 6 лет назад использовал сходящийся алгоритм примерно как подгонка модели под численный результат. И тогда удалось перейти их критерий и продвинутся довольно сильно, тогда как с помощью Эйдос тогда мы сильно пролетели мимо. Но я использовал свой интеллект.

Я тоже так понял, что надо не просто решать задачу с помощью системы, а надо решать задачу с помощью своего интеллекта, системы и самого Каггла, т.к. оценка достоверности моделей в системе "Эйдос" дает другие результаты, чем Каггл, малоэффективна и в общем бесполезна (в данном случае). Лидеры конкурсов Каггла давно это поняли, что Каггл надо использовать как часть решения. Поэтому у них так много попыток. Они используют поиск решения, как в игре "Быки и коровы". Согласен с тем, что это не задача распознавания в чистом виде, а скорее задача какого-то интеллектуального итерационного поиска с обратной связью. Эту задачу и надо решать! Надо решать не ту задачу, которую мы можем решать, а ту задачу, которая ставится заказчиком. И хорошо, если эти задачи совпадают. Мы ищем упавшее кольцо под фонарем, потому что там можем его найти. А оно может находится под фонарем (тогда нам повезло), а может быть и не под ним. И тогда мы пролетаем. А надо искать его таким методом, чтобы не играло роли, под фонарем оно и или нет.

Именно так, надо подгонять модель под их требования.

Chaos and Correlation

Home Credit Default Risk

Re: Home Credit Default Risk

Re: Home Credit Default Risk

Re: Home Credit Default Risk

Re: Home Credit Default Risk

Re: Home Credit Default Risk

Re: Home Credit Default Risk

Re: Home Credit Default Risk

Re: Home Credit Default Risk

Re: Home Credit Default Risk

Re: Home Credit Default Risk