Chaos and Correlation

**Eugene Lutsenko** » Пн июл 30, 2018 6:39 pm

Может тогда сразу сделаешь еще формирование результирующего csv-файла для Каггла?
Александр Петрович выше привел его формат

**Eugene Lutsenko** » Пн июл 30, 2018 8:51 pm

В колонке Target среднее числового интервала - класса, для которого получен наивысший уровень сходства для этого объекта в данной модели с данным инт.критерием. Это среднее есть в базе Classes.dbf в поле: AVR_GRINT

**Eugene Lutsenko** » Пн июл 30, 2018 9:37 pm

Дмитрий Бандык писал(а):То есть допустим если есть классы типа (0..1) (1..2) (2..3) и если максимальное сходство по второму из них то значение target будет равно 1.5 ?

типа этого, т.е. так

**Eugene Lutsenko** » Вт июл 31, 2018 4:40 am

А я тщательно все проверил и доделал и сейчас на работе идет подготовка обучающей и тестовой выборки. Я сделал 200 классов и по 10 градаций в описательных шкалах, т.к. 100 обеспечивают маловатую точность. А больше классов (500 или 1000) брать не получается, т.к. тогда по ним будет слишком мало примеров для обобщения, т.е. они все будут уникальными и задача распознавания сведется к задаче поиска и выборки, что нам неинтересно.

**Eugene Lutsenko** » Вт июл 31, 2018 6:51 pm

Дмитрий Бандык писал(а):Готово:
https://yadi.sk/d/ftRV0sd63ZmEKo

Файлы имеют вид Results_abs.csv, Results_prc1.csv ... и т.д. Располагаются в папке проекта.

Спасибо, буду смотреть

**Eugene Lutsenko** » Ср авг 01, 2018 6:47 am

Привет, Дима!

Оба модуля перестали правильно работать, хотя дизайн улучшился.
Они теперь исполняются на модели большой размерности, но дают неправильный результат.

Модель синтеза модели дает все значения информативностей для всех классов и всех признаков равные нулю.
При сохранении матриц моделей надо бы сделать тоже отдельный прогресс-бар ниже того, что работает при синтезе моделей.
После окончания работы модуля надо бы вывести сообщение сообщение: "Синтез моделей успешно завершен"

Модуль распознавания возможно работает неверно из-за того, что по сути моделей то нет. Но в все равно он не должен выдавать ошибку. На компе на работе он вроде как отображает ход процесса распознавания а в конце дает ошибку. Если распознаваемая выборка пуста, то сразу дает ошибку (а должен выдавать сообщение об этом). Дизайн заметно улучшился. В ходе исполнения написать: "Распознавание в модели: Abs< Prc#, Inf#" (какой именно). После окончания работы модуля надо бы вывести сообщение сообщение: "Распознавание во всех моделях успешно завершено"

Ссылка на модель: https://yadi.sk/d/wYn3HSOE3ZgCp9

Сейчас на работе идет ввод тестовой выборки. По моим оценкам это может занять несколько дней (это значит, что режим 2.3.2.2 тоже нуждается в GPU-реализации). Как только будет готов результат можно скачивать приложение с моего компа на работе, проводить синтез моделей и распознавание и посылать результат на Каггл (при условии что к этому времени Димины GPU-модули, реализующие основные функции режимов 3.5 и 4.1.2 будут правильно работать на этом примере). Но на небольших примерах я полностью отладил режимы ввода обучающей выборки и распознаваемой выборки в мультитаблицу при простом сочетании параметров по умолчанию. А параметров очень много. Чтобы отладить все их потребуется еще много времени.

Может быть у меня не будет возможности это сделать. Но в принципе это может сделать и Александр Петрович. У него есть доступ к моему рабочему компьютеру.

**Eugene Lutsenko** » Ср авг 01, 2018 8:42 am

Там есть операция кодирования (замена значений кодами градаций шкал), алгоритм которой прост, но она является очень трудоемкой по числу операций

**Eugene Lutsenko** » Ср авг 01, 2018 1:28 pm

Не буду писать о себе. Единственное скажу, что 3 года работал на ассемблере PDP-11 и тоже делал очень быстрые программы. Руководство считало, что они сделаны на очень высоком уровне. По крайней мере 15 лет они были выше мировых аналогов. Но сейчас я работаю на Аляске и в ней действительно нет средств низкоуровневой оптимизации. Объемы обрабатываемых данных очень велики и в оперативной памяти не помещаются, разве что какая-нибудь сотая для процента. Конечно я согласен с тем, что все надо переделывать и совершенствовать: и математику, и алгоритмы, и программную реализацию. Но это дело не быстрое. К тому же систему Эйдос я сделал в свободное от работы время, в основном в то время, когда люди еще спят или уже спят. Я ее не продаю, а даю бесплатно всем. Поэтому к ней и ко мне не может быть никаких претензий. Не нравится - не пользуйтесь. Делайте что-то свое, что вам нравится и пользуйтесь. Я не обижусь. Какие проблемы. Я об этом писал здесь: http://lc.kubagro.ru/aidos/_Aidos-X.htm.

А если говорить по существу, то алгоритмы режима 2.3.2.2 легко распараллеливаются на число потоков обработки, равное числу шкал. А их в данной задаче 4992. На объеме обучающей выборки около 50000 объектов с числом шкал около 5000 прогнозируемая продолжительность формирования распознаваемой выборки около 63 часов, т.е. не неделя, а около 2.5 суток, т.е. примерно 3600 минут. Если реализовать параллельную обработку всех 5000 шкал, то процесс кодирования займет менее одной минуты.

Существует много систем искусственного интеллекта. Универсальная когнитивная аналитическая система «Эйдос-Х++» отличается от них следующими параметрами:
- разработана в универсальной постановке, не зависящей от предметной области. Поэтому она является универсальной и может быть применена во многих предметных областях (http://lc.kubagro.ru/aidos/index.htm);
- находится в полном открытом бесплатном доступе (http://lc.kubagro.ru/aidos/_Aidos-X.htm), причем с актуальными исходными текстами (http://lc.kubagro.ru/__AIDOS-X.txt);
- является одной из первых отечественных систем искусственного интеллекта персонального уровня, т.е. она не требует от пользователя специальной подготовки в области технологий искусственного интеллекта (есть акт внедрения системы «Эйдос» 1987 года) (http: //lc.kubagro.ru/aidos/aidos02/PR-4.htm);
- обеспечивает устойчивое выявление в сопоставимой форме силы и направления причинно-следственных зависимостей в неполных зашумленных взаимозависимых (нелинейных) данных очень большой размерности числовой и не числовой природы, измеряемых в различных типах шкал (номинальных, порядковых и числовых) и в различных единицах измерения;
- содержит большое количество локальных (поставляемых с инсталляцией) и облачных учебных и научных приложений (в настоящее время их около 30 и 128, соответственно) (http://lc.kubagro.ru/aidos/Presentation ... online.pdf);
- обеспечивает мультиязычную поддержку интерфейса на 44 языках. Языковые базы входят в инсталляцию и могут пополняться в автоматическом режиме;
- поддерживает on-line среду накопления знаний и широко используется во всем мире (http://aidos.byethost5.com/map3.php).

У системы Эйдос есть еще одно важное достоинство: она реально есть и реально работает. Так что я могу ей пользоваться для учебных целей и для научных исследований. А гораздо более мощные и быстродействующие системы или еще только будут, или даже уже где-то есть, я не имею возможности ими пользоваться.

**Eugene Lutsenko** » Ср авг 01, 2018 4:56 pm

Дмитрий Бандык писал(а):То есть файл в 24Гб должен обработаться порядка за 40-160 секунд. Ну добавим прочие издержки - пусть пять-десять минут. Пусть полчаса. Но не двое суток ну никак. Это нужно очень постараться чтобы растянуть процесс на двое суток. И видимо производители Аляски таки "постарались". Вы столько лет были заложником плохого инструмента.

Может быть конечно и я постарался. Когда я это разрабатывал у меня винчестер был 80 Мб (не ГБ, а именно Мб) и это мне казалось много. Так что задач такой размерности я не мог себе даже представить, хотя воображение у меня вроде неплохое (Эйдетическое). И сделал так, что вполне все работало. Это можно сказать в последнее время возникают такие вопросы. Но я так понял, что это тенденция и таких вопросов будет все больше и они будут все острее.

Если ты разработаешь все заново, то это будет на голову выше, а может быть и не на одну

**Eugene Lutsenko** » Ср авг 01, 2018 7:09 pm

Дмитрий Бандык писал(а):Исправленные модули качайте по ссылке:
https://yadi.sk/d/0EucVn4r3ZodXi

И давайте займемся режимом 2.3.2.2. Из каких файлов что брать и в какие что сохранять?

Давайте. Я к этой мысли и подвожу. Но это все не так просто. Посмотри на экранную форму, в которой задаются параметры (сейчас их 41) этого режима:

При отсутствии данных в распознаваемой выборке может возникать ошибка (файлы баз данных есть, но записей в них нет). При запуске модуля распознавания сразу возникает ошибка:

А зачем после окончания синтеза моделей можно вводить текст в поле?

Chaos and Correlation

Santander Value Prediction Challenge

Re: Santander Value Prediction Challenge

Re: Santander Value Prediction Challenge

Re: Santander Value Prediction Challenge

Re: Santander Value Prediction Challenge

Re: Santander Value Prediction Challenge

Re: Santander Value Prediction Challenge

Re: Santander Value Prediction Challenge

Re: Santander Value Prediction Challenge

Re: Santander Value Prediction Challenge

Re: Santander Value Prediction Challenge

Кто сейчас на конференции