[phpBB Debug] PHP Notice: in file /viewtopic.php on line 981: date(): It is not safe to rely on the system's timezone settings. You are *required* to use the date.timezone setting or the date_default_timezone_set() function. In case you used any of those methods and you are still getting this warning, you most likely misspelled the timezone identifier. We selected the timezone 'UTC' for now, but please set date.timezone to select your timezone.
[phpBB Debug] PHP Notice: in file /viewtopic.php on line 981: getdate(): It is not safe to rely on the system's timezone settings. You are *required* to use the date.timezone setting or the date_default_timezone_set() function. In case you used any of those methods and you are still getting this warning, you most likely misspelled the timezone identifier. We selected the timezone 'UTC' for now, but please set date.timezone to select your timezone.
[phpBB Debug] PHP Notice: in file /includes/functions.php on line 4183: Cannot modify header information - headers already sent by (output started at /includes/functions.php:3493)
[phpBB Debug] PHP Notice: in file /includes/functions.php on line 4185: Cannot modify header information - headers already sent by (output started at /includes/functions.php:3493)
[phpBB Debug] PHP Notice: in file /includes/functions.php on line 4186: Cannot modify header information - headers already sent by (output started at /includes/functions.php:3493)
[phpBB Debug] PHP Notice: in file /includes/functions.php on line 4187: Cannot modify header information - headers already sent by (output started at /includes/functions.php:3493)
Chaos and Correlation • Просмотр темы - Santander Value Prediction Challenge

Santander Value Prediction Challenge

Модераторы: ТВЧ, Petrovich

Re: Santander Value Prediction Challenge

Сообщение Eugene Lutsenko » Вс авг 05, 2018 9:22 am

Я советую сделать так. Скачать систему Эйдос с моего сайта (http://lc.kubagro.ru/Aidos-X.exe) и развернуть ее, например в папках: c:\1\Aidos-X и c:\2\Aidos-X. И в 1-й, и во 2-й установить в режиме 1.3 лаб.работу 3.03 и затем в обоих папках выполнить режим 3.5. 1-ю использовать без твоих модулей, а 2-ю с твоими модулями. Во 2-й запускать твои модули и сравнивать файлы матриц моделей и результаты распознавания с теми, которые в 1-й.

Матрицы моделей не нормируются, они получаются как есть по формулам из таблицы 3 статьи:

Луценко Е.В. Теоретические основы системно-когнитивного моделирования процессов и машин агроинженерных систем / Е.В. Луценко // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. – Краснодар: КубГАУ, 2018. – №01(135). С. 1 – 49. – IDA [article ID]: 1351801001. – Режим доступа: http://ej.kubagro.ru/2018/01/pdf/01.pdf, 3,062 у.п.л.
Код: Выделить всё
N1 = VAL(LC_FieldGet( DB_Name, nHandle[1], N_Gos+1, N_Cls+3 ))  // факт - это встреча в обучающей выборке сочетания: класс х признак
K1 = LOG(N_Cls)/LOG(N1)/LOG(2)                                  // Нормировочный коэффициент для INF1

N2 = VAL(LC_FieldGet( DB_Name, nHandle[1], N_Gos+4, N_Cls+3 ))  // Суммарное количество объектов обучающей выборки, учтенных в модели
K2 = LOG(N_Cls)/LOG(N2)/LOG(2)                                  // Нормировочный коэффициент для INF2

Нормируются результаты распознавания.

Структура матрицы: abs.txt
Код: Выделить всё
aInfStruct := { { "Kod_pr", "N",         15, 0},;   // 1
                { "Name"  , "C",mLenNameMax, 0} }   // 2
FOR j=1 TO N_Cls
    FieldName = "N"+ALLTRIM(STR(j,15))
    AADD(aInfStruct, { FieldName, "N", 19, 1 })
NEXT
AADD(aInfStruct, { "Summa", "N", 19, 1 })
AADD(aInfStruct, { "Sredn", "N", 19, 7 })
AADD(aInfStruct, { "Disp" , "N", 19, 7 })

DC_ASave(aInfStruct, "_AbsStruct.arx")      // Когда БД создается - записывать структуру, когда открывается - считывать
*aInfStruct = DC_ARestore("_AbsStruct.arx")
*************************************************
DB_name = "Abs.txt"

Структура матриц остальных моделей: prc1.txt, prc2, in1-inf3:
Код: Выделить всё
********** Структура создаваемой базы ***********

aInfStruct := { { "Kod_pr", "N",         15, 0},;   // 1
                { "Name"  , "C",mLenNameMax, 0} }   // 2
FOR j=1 TO N_Cls
    FieldName = "N"+ALLTRIM(STR(j,15))
    AADD(aInfStruct, { FieldName, "N", 19, 7 })
NEXT
AADD(aInfStruct, { "UnProb", "N", 19, 7 })          // Безусловная вероятность
AADD(aInfStruct, { "Sredn" , "N", 19, 7 })
AADD(aInfStruct, { "Disp"  , "N", 19, 7 })

DC_ASave(aInfStruct, "_PrcStruct.arx")              // Когда БД создается - записывать структуру, когда открывается - считывать
*aInfStruct = DC_ARestore("_PrcStruct.arx")
*************************************************
******** Создать БД *********************
DB_name1 = "Prc1.txt"
Аватара пользователя
Eugene Lutsenko
 
Сообщения: 9738
Зарегистрирован: Вт мар 09, 2010 6:11 am
Откуда: Krasnodar, Russia

Re: Santander Value Prediction Challenge

Сообщение Eugene Lutsenko » Вс авг 05, 2018 9:44 am

Дмитрий Бандык писал(а):В расчете матриц информативностей присутствует:
Ψ – нормировочный коэффициент [1], преобразующий количество информации
в формуле А.Харкевича в биты и обеспечивающий для нее соблюдение принципа
соответствия с формулой Р.Хартли;


Так вот в моих рассчетах я его везде пропустил поскольку не нашел формулы для его вычисления. Я предполагал что уточню его потом. Вот собственно этот момент наступил и мне надо выяснить как посчитать этот коэффициент.

Я наверное прочитал твои мысли и написал об этом в сообщении выше еще до появления этого твоего сообщения.
По строкам и столбцам за пределами самой матрицы классов и признаков: это сумма, среднее, средн.квдр.отклонение значений в строках и колонках.
Аватара пользователя
Eugene Lutsenko
 
Сообщения: 9738
Зарегистрирован: Вт мар 09, 2010 6:11 am
Откуда: Krasnodar, Russia

Re: Santander Value Prediction Challenge

Сообщение Eugene Lutsenko » Вс авг 05, 2018 9:51 am

да. Это перевод на основание 2 (делится на log(2)), чтобы было в битах, если взять натуральный - то получится в нитах, если десятичный - то в дитах. т.е. сам log можно брать по любому основанию (у меня - это натуральный log, ln).

В матр.abs.txt ЕСТЬ ЕЩЕ 4-я строка, - это число объектов по классам
Аватара пользователя
Eugene Lutsenko
 
Сообщения: 9738
Зарегистрирован: Вт мар 09, 2010 6:11 am
Откуда: Krasnodar, Russia

Re: Santander Value Prediction Challenge

Сообщение Eugene Lutsenko » Вс авг 05, 2018 11:24 am

Число столбцов у матриц одинаковое, а у abs только на 1 строку больше. Первые три итоговые строки: сумма числа признаков, среднее и ср.кв.отклонение, а 4-я строка - число объектов по классам и всего.
Аватара пользователя
Eugene Lutsenko
 
Сообщения: 9738
Зарегистрирован: Вт мар 09, 2010 6:11 am
Откуда: Krasnodar, Russia

Re: Santander Value Prediction Challenge

Сообщение Eugene Lutsenko » Вс авг 05, 2018 11:28 am

еще в https://elibrary.ru/item.asp?id=18632909 посмотри стр.240 и рядом
Аватара пользователя
Eugene Lutsenko
 
Сообщения: 9738
Зарегистрирован: Вт мар 09, 2010 6:11 am
Откуда: Krasnodar, Russia

Re: Santander Value Prediction Challenge

Сообщение Eugene Lutsenko » Вс авг 05, 2018 2:22 pm

На счет коэффициента "пси":

Луценко Е.В. Моделирование сложных многофакторных нелинейных объектов управления на основе фрагментированных зашумленных эмпирических данных большой размерности в системно-когнитивном анализе и интеллектуальной системе «Эйдос-Х++» / Е.В. Луценко, В.Е. Коржаков // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. – Краснодар: КубГАУ, 2013. – №07(091). С. 164 – 188. – IDA [article ID]: 0911307012. – Режим доступа: http://ej.kubagro.ru/2013/07/pdf/12.pdf, 1,562 у.п.л.

Луценко Е.В. Математическая сущность системной теории информации (СТИ) (Системное обобщение формулы Больцмана-Найквиста-Хартли, синтез семантической теории информации Харкевича и теории информации Шеннона) / Е.В. Луценко // Политематический сетевой электронный научный журнал Кубанского государственного аграрного университета (Научный журнал КубГАУ) [Электронный ресурс]. – Краснодар: КубГАУ, 2008. – №08(042). С. 76 – 103. – Шифр Информрегистра: 0420800012\0114, IDA [article ID]: 0420808004. – Режим доступа: http://ej.kubagro.ru/2008/08/pdf/04.pdf, 1,75 у.п.л.

В статье http://ej.kubagro.ru/2008/08/pdf/04.pdf на стр. 10 есть формула (25) для расчета "пси". Проверка простая: если взять диагональную матрицу абсолютных частот, то должно получится ко-во информации равное логарифму по осн.2 от числа классов.
Дима! Я посла тебе расчет моделей в Excel на почту
Аватара пользователя
Eugene Lutsenko
 
Сообщения: 9738
Зарегистрирован: Вт мар 09, 2010 6:11 am
Откуда: Krasnodar, Russia

Re: Santander Value Prediction Challenge

Сообщение Petrovich » Вс авг 05, 2018 2:58 pm

Eugene Lutsenko писал(а):Получилось: https://www.kaggle.com/c/santander-valu ... lenge/team

Да, теперь мы команда. Жаль, что Димы с нами нет.
Аватара пользователя
Petrovich
Site Admin
 
Сообщения: 10267
Зарегистрирован: Сб мар 06, 2010 12:05 pm
Откуда: Toronto, Canada

Re: Santander Value Prediction Challenge

Сообщение Eugene Lutsenko » Вс авг 05, 2018 4:45 pm

Petrovich писал(а):
Eugene Lutsenko писал(а):Получилось: https://www.kaggle.com/c/santander-valu ... lenge/team

Да, теперь мы команда. Жаль, что Димы с нами нет.

Он есть своими разработками
Аватара пользователя
Eugene Lutsenko
 
Сообщения: 9738
Зарегистрирован: Вт мар 09, 2010 6:11 am
Откуда: Krasnodar, Russia

Re: Santander Value Prediction Challenge

Сообщение Eugene Lutsenko » Вс авг 05, 2018 5:02 pm

Дмитрий Бандык писал(а):Исправил формирование scv-файлов. Других ошибок пока не смог найти:
https://yadi.sk/d/eE0uTWaO3ZugGa

Идет распознавание. Прошло уже 4 часа. Пишет, что еще полчаса осталось.
Изображение
Что получится - напишу.

Оказалось это было распознавание обучающей выборки. Тестовая выборка примерно в 10 раз больше... Запустил
Аватара пользователя
Eugene Lutsenko
 
Сообщения: 9738
Зарегистрирован: Вт мар 09, 2010 6:11 am
Откуда: Krasnodar, Russia

Re: Santander Value Prediction Challenge

Сообщение Eugene Lutsenko » Вс авг 05, 2018 8:03 pm

При переходе на 2-ю модель сломался прогноз времени исполнения:
Изображение

На сайте Каггл написано, что еще 8 дней:
https://www.kaggle.com/c/santander-valu ... evaluation

Я сейчас проверил в системе Эйдос вариант обучающей выборки, когда между классами и признаками взаимно-однозначное соответствие. В модели Inf1 при этом получается количество информации в признаке как у Хартли равное i=LogN, где N - число классов. Все работает правильно. Коэффициент "пси" правильный.
Аватара пользователя
Eugene Lutsenko
 
Сообщения: 9738
Зарегистрирован: Вт мар 09, 2010 6:11 am
Откуда: Krasnodar, Russia

Пред.След.

Вернуться в Chaos and Correlation

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 15

cron