[phpBB Debug] PHP Notice: in file /viewtopic.php on line 981: date(): It is not safe to rely on the system's timezone settings. You are *required* to use the date.timezone setting or the date_default_timezone_set() function. In case you used any of those methods and you are still getting this warning, you most likely misspelled the timezone identifier. We selected the timezone 'UTC' for now, but please set date.timezone to select your timezone.
[phpBB Debug] PHP Notice: in file /viewtopic.php on line 981: getdate(): It is not safe to rely on the system's timezone settings. You are *required* to use the date.timezone setting or the date_default_timezone_set() function. In case you used any of those methods and you are still getting this warning, you most likely misspelled the timezone identifier. We selected the timezone 'UTC' for now, but please set date.timezone to select your timezone.
[phpBB Debug] PHP Notice: in file /includes/functions.php on line 4183: Cannot modify header information - headers already sent by (output started at /includes/functions.php:3493)
[phpBB Debug] PHP Notice: in file /includes/functions.php on line 4185: Cannot modify header information - headers already sent by (output started at /includes/functions.php:3493)
[phpBB Debug] PHP Notice: in file /includes/functions.php on line 4186: Cannot modify header information - headers already sent by (output started at /includes/functions.php:3493)
[phpBB Debug] PHP Notice: in file /includes/functions.php on line 4187: Cannot modify header information - headers already sent by (output started at /includes/functions.php:3493)
Chaos and Correlation • Просмотр темы - Распознавание траекторий частиц в детекторе
Страница 18 из 26

Re: Распознавание траекторий частиц в детекторе

СообщениеДобавлено: Вс июн 24, 2018 11:06 am
Eugene Lutsenko
Давай попробуем. Хотя режим 3.5 считает и верифицирует не только 10 моделей с разными вариантами настроек, но и еще делает около 20 выходных форм и баз данных, которые потом используются в других режимах. Поэтому твой модуль его не заменяет. но пока проблема не в этом, а в том, что CSV-файлы содержат по 4990 полей-описательных шкал (я никогда не сталкивался с задачами такой размерности), а система Эйдос в текущей версии обеспечивает создание моделей с 1500 (максимум с 1700 шкалами: описательные+классификационные). Это очень много. Для сравнения: системы статистика и SPSS кажется поддерживают до 70 шкал. Я могу снять это ограничение. Это даже и не очень сложно. Но требует переделки нескольких режимов. Что касается 60 тыс. долларов. Если честно, я думаю в мире найдется кому их заработать, кроме нас.

Re: Распознавание траекторий частиц в детекторе

СообщениеДобавлено: Вс июн 24, 2018 2:51 pm
Eugene Lutsenko
я тоже, видимо, переделаю систему так, чтобы снять это ограничение

Re: Распознавание траекторий частиц в детекторе

СообщениеДобавлено: Вс июн 24, 2018 5:08 pm
Eugene Lutsenko
Ограничение на размерность матриц моделей я снял давно: еще в 2012 году. Проверял на численных примерах 100000 на 100000. А вот сейчас в этой простенькой задаче оказалось 4990 описательных шкал, тогда как текущая версия системы Эйдос позволяет строить модели на примерно 1500-1700 классификационных+описательных шкал. Сейчас я думаю, как снять это ограничение. Прорабатываю 2 варианта. Один уже придумал, как реализовать. Не сложно, но нужно программировать. А 2-й может быть если получится вообще можно быстро сделать, т.к. программирования там почти нет. Но сейчас идут защиты (у меня 5 дипломников и 3 магистранта с диссертациями), потом техобслуживание (80000 км), 6 статей по 3 грантам, журнал, около 20 дисциплин в 2-х университетах: http://lc.kubagro.ru/aidos/p14.htm, http://lc.kubagro.ru/My_training_schedule.doc, по которым надо делать кучу документов, совершенствование системы Эйдос, т.е. работы на отпуск хватит, чтобы вообще не отдохнуть

Re: Распознавание траекторий частиц в детекторе

СообщениеДобавлено: Вс июн 24, 2018 6:02 pm
Eugene Lutsenko
Конечно попробуем. В этом есть перспектива. Но у меня очень большое подозрение, что целостный продукт на новых принципах ты будешь создавать сам. А потом с ним придешь на Каггл и займешь первые места по всем конкурсам

Re: Распознавание траекторий частиц в детекторе

СообщениеДобавлено: Пн июн 25, 2018 2:18 am
Petrovich
Eugene Lutsenko писал(а):Запущу на компьютере на работе. Пусть пашет. А сроки какие обозначены? Какие-то странные наименования колонок. Наверное зашифрованные. Есть ли там какие-нибудь требования к погрешности предсказания величине транзакции? Если я возьму и разделю весь диапазон изменения величины транзакции на 10 интервалов, этого будет достаточно? Или нужно делить
этот диапазон на 100 или на 1000 интервалов? Комп на работе уже 2 часа преобразует train.csv в нормальный Excel-файл и уже около 60% преобразовал. Наверное тестовая выборка будет распознаваться на одном компе лет 10, точнее скажу позже. Сложность этой задачи в огромном объеме исходных данных и гигантском объеме тестирующей выборки. В какой форме нужно представить на Каггл результат распознавания тестирующей выборки? Мне еще ни разу не встречалась задача, в которой было бы 4990 описательных шкал, а в этой задаче их именно столько. Сейчас запустил процесс ввода этой Excel-таблицы в систему Эйдос и она вылетела. Попробую ввести в систему Эйдос dbf-файл, сначала сделав его из csv не используя Excel. Так что это не такая уж и простая задача

Это типичная банковская задачка - угадать объем покупки клиента по его имени. Для этого дается зашифрованное имя, которое потом встретится в тестовом файле. Результат распознавания надо будет занести в колонку target. Я вообще не могу открыть ни одного из файлов. Перемудрили они там с этой задачей. Физике тоже придумали такую ерунду, какую могут придумать только физики.

Re: Распознавание траекторий частиц в детекторе

СообщениеДобавлено: Пн июн 25, 2018 2:45 am
Petrovich
Метрика для банковской задачи https://www.kaggle.com/c/santander-valu ... evaluation
В файлах на отправку первая колонка с именами, а вторая - с числами. Но имена даны в каком-то уродском формате. Открывается в Математике и выглядит так
Изображение

Re: Распознавание траекторий частиц в детекторе

СообщениеДобавлено: Пн июн 25, 2018 3:59 am
Eugene Lutsenko
да, у них там имена полей не всегда корректные. В Excel пытался корректировать с помощью формул, но потом отказался от этого, т.к. если тренировочный файл еще хоть как-то открывается, то тестовый уже нет из-за некорректностей и огромного объема данных. Поэтому я стал делать программу преобразования CSV-DBF. Файлы открываются и просматриваются в AkelPad-4.9.8-bin-rus. Структуру файлов я понял, когда посмотрел на них. Там еще вместо запятых стоит десятичная точка, поэтому Excel не понимает, что это числа.

Re: Распознавание траекторий частиц в детекторе

СообщениеДобавлено: Пн июн 25, 2018 10:32 am
Eugene Lutsenko
Дмитрий Бандык писал(а):Я сделаю в своем модуле чтение данных напрямую из CSV-файла. Промежуточный перевод в DBF для моего модуля не нужен.

Это преобразование нужно, чтобы сформировать классификационные и описательные шкалы и с их использованием закодировать исходные данные и получить таким образом обучающую выборку, т.е. все, что нужно для синтеза и верификации моделей

Re: Распознавание траекторий частиц в детекторе

СообщениеДобавлено: Пн июн 25, 2018 11:27 am
Eugene Lutsenko
Дмитрий Бандык писал(а):Но вы не пугайтесь - для вас на верхнем уровне всё будет выглядеть предельно просто - указываете источник данных ( например тот же CSV-файл), указываете приемник результатов (например ваши файлы prc1.txt, inf1.txt и т.д.) и запускаете операцию - обучение либо верификация.

Вот этого я и пугаюсь, так перед запуском твоего модуля, который является аналогом режима 3.5, еще нужно создать классификационные и описательные шкалы и градации и обучающую выборку. Все это делается например, в режиме 2.3.2.2. А сразу создать и верифицировать модели без этого невозможно. Я не понимаю, какие данные ты собираешься вводить в свой модуль из CSV-файлов

Re: Распознавание траекторий частиц в детекторе

СообщениеДобавлено: Пн июн 25, 2018 1:04 pm
Petrovich
Eugene Lutsenko писал(а):да, у них там имена полей не всегда корректные. В Excel пытался корректировать с помощью формул, но потом отказался от этого, т.к. если тренировочный файл еще хоть как-то открывается, то тестовый уже нет из-за некорректностей и огромного объема данных. Поэтому я стал делать программу преобразования CSV-DBF. Файлы открываются и просматриваются в AkelPad-4.9.8-bin-rus. Структуру файлов я понял, когда посмотрел на них. Там еще вместо запятых стоит десятичная точка, поэтому Excel не понимает, что это числа.

точка воспринимается нормально в англоязычной кодировке, а сама структура данных в файле для обучения просто кошмарная. Там строк с именами и столбцов с именами получается столько, что эксел вообще эти файлы не открывает и не принимает их за csv. В Математике я могу все это открыть (лучше всего изучать эту ерунду в питоне), но данные вообще не воспринимаются к обучению из-за большого числа нулей. Короче это таблица из имен покупателей и имен покупок, а на пересечении объем покупки. Но имена все зашифрваны каким-то идиотским способом.