В статье описывается масштабный эксперимент по применению нового метода искусственного интеллекта – автоматизированного системно-когнитивного анализа (АСК-анализ) для выявления зависимостей между астропризнаками и обобщенными категориями (на основе исследования выборки из 20007 респондентов) путем типизации (обобщения), а также использования знания этих зависимостей для идентификации новых респондентов, не входящих в обучающую выборку, по этим категориям и проведения исследования созданной модели.
В последнее время среди исследователей в области астрологии часто возникает вопрос, действительно ли существуют практически значимые зависимости между астрономическими признаками респондентов на момент рождения (астропризнаками) и обобщенными категориями, отражающими физический, психофизиологический и социальный статус личности, а также ключевые события жизни? Однако, как это часто бывает, положительный ответ на этот вопрос сам ставит больше вопросов, чем решает.
И вот лишь некоторые из них:1. Если эти зависимости существуют, то возможно ли их выявить и использовать для идентификации респондентов, а также для выработки рекомендаций по коррекции их целей, ценностей, мотиваций, а также семейного, социального и профессионального поведения?
2. Если подтвердятся те зависимости, которые уже известны астрологам, то возникает вопрос о том, откуда (из какого источника) они стали известны им еще в глубокой древности, когда не было мощных компьютеров и интеллектуальных систем
?3. Можно ли использовать модель, содержащую эти зависимости между астропризнаками и категориями для астрологических исследований или даже для развития астрологии?
В данной статье мы не ставим себе целью ответить на все эти вопросы и лишь надеемся приблизиться к ответу на первый из них путем применения интеллектуальных систем анализа. Отметим, что принципы построения и некоторые результаты применения интеллектуальных систем даны в работах [1-13], а исследованиям
в области астрологии посвящены работы [9, 10, 11].Ответы на эти вопросы в наше время исследователи искали в основном путем применения математической статистики. При этом были получены неоднозначные результаты, на основе которых можно высказать гипотезу, что если подобные зависимости и существуют, то
, скорее всего они очень слабы и являются достаточно выраженными лишь для очень ограниченного количества категорий личности (прежде всего спортсменов). Заметим, среди исследователей сложилось мнение, что решение этой проблемы может быть получено путем применения многопараметрической регрессии и интеллектуальных систем анализа [14].Обычно статистические методы предъявляют к исследуемой выборке жесткие требования (например, необходимость полных повторностей), которые на практике очень сложно соблюсти для данных достаточно большой размерности. В ряде случаев, т.е. при решении ряда задач в различных предметных областях, это создает практически непреодолимые проблемы на пути применения этих методов или приводит к необходимости обработки лишь подматриц малых размерностей, для которых эти требования полностью выполняются (из исходных больших матриц). Поэтому является актуальной задача разработки других методов, предъявляющих менее жесткие требования, чем классическая статистика, к исходным данным, в частности к их объему, и в то же время позволяющих решать практически значимые задачи.
Однако, сама необходимость повторностей предъявляется к исходным данным далеко не во всех статистических
методах, а только в таких параметрических методах, как индексный метод и факторный анализ, которыми чаще всего и пользуются в подобных случаях, при этом ограничения и требования этих методов к исходным данным автоматически (по умолчанию, не критически) распространяют на все методы вообще. Это очень сильное неоправданное и ни на чем не основанное обобщение, т.к. существуют и другие методы, к которым относится и АСК-анализ, в которых этого требования нет или оно не является столь жестким (т.е. оно конечно желательно, но вовсе не обязательно).Кроме того, мы можем и не исследовать всю систему первичных возможных астропризнаков признаков, а брать для исследования лишь одну из подсистем, например исследовать только влияние одной из планет или только стихию, и т.п. В этом случае необходимый корректный с точки зрения наличия полных повторностей объем выборки существенно сокращается.
В АСК-анализе недостаточность статистики с точки зрения классических представлений не приводит вообще к невозможности получения осмысленного результата, а приводит лишь к возможному, но вовсе не обязательному, понижению его качества за счет невозможности в этом случае исключения артефактов и менее эффективному подавлению шумов в исходных данных, но сами зависимости и в этом случае все равно будут выявлены.
Таким образом, по нашему мнению, АСК-анализ [1-8] не является статистическим методом (мы считаем, что это метод искусственного интеллекта, основанный на теории информации) и по этой причине не должен сравниваться со статистическими методами и оцениваться как статический метод по критериям, принятым в этих случаях.
Авторы хотели бы отметить также следующее важное обстоятельство. Не смотря на то, что астропризнаки респондентов на момент рождения (связанные также с местом рождения) впервые стали использоваться в астрологии и поэтому традиционно ассоциируются именно с астрологией, но по своей сути они являются чисто астрономическими и сами по себе к астрологии, ее практике и теоретическим концепциям не имеют непосредственного отношения. Этим мы хотим сказать, что использование этих признаков в данном исследовании не является достаточным основанием отождествлять его с астрологическим исследованием или относить его к астрологии.
Таким образом, по нашему мнению, данное исследование не является исследованием в области астрологии, а представляет собой экспериментальную попытку применения технологий искусственного интеллекта для постановки и решения некоторых задач, которые ранее (до этого) решались лишь астрологическими методами. При этом все зависимости между астропризнаками и обобщенными категориями выявляются в АСК-анализе непосредственно на основе анализа эмпирических данных и при этом никак не используются какие-либо априорные астрологические теоретические положения.
Поэтому, с одной стороны, интересно конечно сравнить результаты данного исследования с астрологическими прогнозами для тех же респондентов, но, с другой стороны, данное исследование некорректно было бы оценивать с точки зрения астрологии, т.е. можно рассматривать как попытку независимой проверки некоторых положений самой астрологии методами искусственного интеллекта.
В данной статье для решения поставленных задач предлагается применить автоматизированный системно-когнитивный анализ (АСК-анализ) – новый непараметрический метод искусственного интеллекта, основанный не на статистике, а на системном обобщении теории информации, системном анализе и когнитивном моделировании [1-8, 12]. Этот метод позволяет выделять полезный сигнал о связи признаков с обобщенными категориями из шума путем обобщения (многоканальной типизации), осуществлять синтез информационным моделей больших размерностей, а также использовать их для решения задач идентификации (прогнозирования), поддержки принятия решений и просто исследования предметной области путем исследования ее модели.
Метод и технология АСК-анализа включает:
– базовую когнитивную концепцию;
– математическую модель;
– методику численных расчетов;
– специальный программный инструментарий – универсальную когнитивную аналитическую систему "Эйдос".
Базовая когнитивная концепция АСК-анализа
рассматривает процесс познания, как многоуровневую иерархическую систему обработки информации, причем когнитивные структуры каждого уровня являются результатом интеграции структур предыдущего уровня.На 1-м уровне этой системы находятся дискретные элементы потока чувственного восприятия, которые на 2-м уровне интегрируются в чувственный образ конкретного объекта. Те, в свою очередь, на 3-м уровне интегрируются в обобщенные образы классов и факторов, образующие на 4-м уровне кластеры, а на 5-м конструкты. Система конструктов на 6-м уровне образуют текущую парадигму реальности (т.е. человек познает мир путем синтеза и применения конструктов). На 7-м же уровне обнаруживается, что текущая парадигма не единственно-возможная, т.к. существуют другие формы сознания и реальности, кроме известных до этого.
Ключевым для когнитивной концепции является понятие факта, под которым понимается соответствие дискретного и интегрального элементов познания (т.е. элементов разных уровней интеграции-иерархии), обнаруженное на опыте. Факт рассматривается как квант смысла, что является основой для его формализации [6]. Мысль представляет собой действие над данными, извлекающее из них смысл. Таким образом, происхождение смысла связывается со своего рода "разностью потенциалов", существующей между смежными уровнями интеграции-иерархии обработки информации в процессах познания. Между когнитивными структурами разных уровней иерархии существует отношение "дискретное – интегральное". Именно это служит основой формализации смысла. Из базовой когнитивной концепции следует когнитивный конфигуратор, представляющий собой минимальную полную систему когнитивных операций, названных "базовые когнитивные операции системного анализа" (БКОСА). Всего выявлено 10 таких операций, каждая из которых оказалась достаточно элементарной для формализации и программной реализации:
1) присвоение имен;
2) восприятие;
3) обобщение (синтез, индукция);
4) абстрагирование;
5) оценка адекватности модели;
6) сравнение, идентификация и прогнозирование;
7) дедукция и абдукция;
8) классификация и генерация конструктов;
9) содержательное сравнение;
10) планирование и принятие решений об управлении.
Математическая модель АСК-анализа основана на системной теории информации (СТИ), которая создана в рамках реализации программной идеи обобщения всех понятий математики, в частности теории информации, базирующихся на теории множеств, путем тотальной замены понятия множества на более общее понятие системы и тщательного отслеживания всех последствий этой замены [7]. Благодаря математической модели, положенной в основу АСК-анализа, этот метод является непараметрическим и позволяет сопоставимо обрабатывать
тысячи градаций факторов (астропризнаков) и будущих состояний объекта управления (категорий) при неполных (фрагментированных), зашумленных данных различной природы, т.е. измеряемых в различных единицах измерения [4].При этом на этапе синтеза модели осуществляется многокритериальная типизация респондентов обучающей выборки по исследуемым категориям, т.е. рассчитывается количество информации, которое содержится в фактах попадания долгот углов в интервалы (рассматриваемые как критерии), о принадлежности респондента к тем или иным категориям, а на этапе идентификации эта информация используется для расчета степени сходства конкретных респондентов с обобщенными категориями.
Результат идентификации респондента, описанного данной системой астропризнаков, представляет собой список обобщенных категорий (классов), в котором они расположены в порядке убывания суммарного количества информации о принадлежности респондента к каждому из них. Математическая модель позволяет сформировать информационные портреты классов и астропризнаков, а также осуществить их кластерный и конструктивный анализ.
Информационный портрет класса (обобщенной категории) показывает какое количество информации содержит каждый астропризнак о принадлежности респондента к данной категории.
Информационный (семантический) портрет астропризнака является его развернутой смысловой количественной характеристикой, в которой содержится информация о принадлежности респондента, обладающего данным признаком, ко всем обобщенным категориям.
Кластеры классов представляют собой группы категорий, сходных по характерным для них астропризнакам.
Кластеры астропризнаков представляют собой группы признаков, сходных по их смыслу, т.е. по тому, какую информацию о принадлежности респондентов, обладающих этими признаками к обобщенным категориям они содержат.
Под конструктом понимается система противоположных (наиболее сильно отличающихся) кластеров, которые называются "полюсами" конструкта, а также спектр промежуточных кластеров, к которым применима количественная шкала измерения степени их сходства или различия.
Конструкты могут быть получены как результат кластерного анализа кластеров категорий или астропризнаков, при этом конструкт рассматривается как кластер с нечеткими границами, включающий в различной степени, причем не только в положительной, но и в отрицательной, все классы или астропризнаки.
Конструктивный анализ позволяет определить в принципе совместимые и в принципе несовместимые по характерным для них астропризнакам классы или обобщенные категории. Совместимыми называются классы, для которых характерны сходные системы астропризнаков, а несовместимыми – для которых они диаметрально противоположны и одновременно неосуществимы.
По результатам кластерно-конструктивного анализа строятся диаграммы смыслового сходства-различия классов (признаков), соответствующие определению семантических сетей и нечетких когнитивных схем, т.е. представляющие собой ориентированные графы, в которых классы (признаки) соединены линиями, толщина которых соответствует модулю, а цвет знаку их сходства-различия.
Предложенная математическая модель в обобщенной постановке обеспечивает содержательное сравнение классов друг с другом и астропризнаков друг с другом, т.е. построение когнитивных диаграмм. Например, информационные портреты классов содержат информацию о характерности признаков для классов. Кластерно-конструктивный анализ обеспечивает сравнение классов друг с другом, т.е. дает степень их сходства и различия. Но он не дает информации о том, какими признаками эти классы похожи и какими отличаются
, и какой вклад каждый признак вносит в сходство или различие некоторых двух классов. Информация об этом генерируется на основе анализа и сравнения двух информационных портретов, что и осуществляется при содержательном сравнении классов. Каждая пара признаков, принадлежащих сравниваемым классам, образует "смысловую связь", вносящую определенный вклад в сходство/различие между этими классами если эти признаки тождественны друг другу или между ними имеется определенное сходство/различие по смыслу. Список связей сортируется в порядке убывания модуля силы связи, причем учитывается не более заданного их количества (это связано с ограничениями при графическом отображении). Графической визуализацией результатов содержательного сравнения классов являются когнитивные диаграммы с много–многозначными связями. На когнитивной диаграмме классов отображены их информационные портреты, в которых факторы расположены в порядке убывания их характерности для этих классов, а линии, соединяющие астропризнаки, имеют толщину и цвет, соответствующие модулю и знаку их вклада в сходство-различие классов. Когнитивная диаграмма классов дает детальную расшифровку структуры конкретной линии связи семантической сети. Кроме того, предложены и реализованы в модели инвертированные когнитивные диаграммы, детально раскрывающие сходство-различие двух астропризнаков по их влиянию на принадлежность респондента к различным категориям, а также прямые и инвертированные диаграммы В.С. Мерлина (1986), в которых показаны уровни и знаки связей между астропризнаками различных уровней интегративности по их характерности для различных категорий. Предложены и реализованы также классические и интегральные когнитивные карты, представляющие собой диаграммы, объединяющие семантические сети классов и признаков и нелокальные нейронные сети [3].Методика численных расчетов АСК-анализа включает структуры данных, способы представления и формализации (кодирования) входных, промежуточных и выходных данных, а также алгоритмы реализации базовых когнитивных операций системного анализа.
Специальный программный инструментарий АСК-анализа – универсальная когнитивная аналитическая система "Эйдос" (система "Эйдос") обеспечивает:
– формализацию предметной области;
– подготовку обучающей выборки и управление ей, в т.ч. взвешивание или "ремонт" данных;
– синтез семантической информационной модели предметной области (обобщение или типизация);
– оптимизацию модели;
– проверку адекватности модели;
– идентификацию и прогнозирование;
– типологический анализ (включая решение обратной задачи идентификации и прогнозирования, семантический информационный и кластерно-конструктивный анализ классов и факторов);
– оригинальную графическую визуализация результатов анализа в форме когнитивной графики (простых и интегральных когнитивных карт, семантических сетей и когнитивных диаграмм).
В работах [1-10] приведен перечень этапов системно-когнитивного анализа, которые необходимо выполнить, чтобы осуществить синтез и исследование модели объекта управления:
1. Когнитивная структуризация, а затем и формализация предметной области [5].
2. Ввод данных мониторинга в базу прецедентов (обучающую выборку).
3. Синтез семантической информационной модели (СИМ).
4. Оптимизация СИМ (в случае целесообразности).
5. Проверка адекватности СИМ (верификация модели, измерение внутренней и внешней, дифференциальной и интегральной валидности).
6. Решение задач идентификации состояний объекта управления, прогнозирование и поддержка принятия управленческих решений по управлению с применением СИМ.
7. Системно-когнитивный анализ СИМ.
Важной особенностью АСК-анализа является возможность единообразной числовой обработки разнотипных числовых и нечисловых данных [4]. Это обеспечивается тем, что нечисловым величинам тем же методом, что и числовым, приписываются сопоставимые в пространстве и времени, а также между собой, количественные значения, позволяющие обрабатывать их как числовые:
– на первых двух этапах АСК-анализа числовые величины сводятся к интервальным оценкам, как и информация об объектах нечисловой природы (фактах, событиях) (этот этап реализуется и в методах интервальной статистики);
– на третьем этапе АСК-анализа всем этим величинам по единой методике, основанной на системном обобщении семантической теории информации А.Харкевича, сопоставляются количественные величины (имеющие смысл количества информации в признаке о принадлежности объекта к классу), с которыми в дальнейшем и производятся все операции моделирования (этот этап является уникальным для АСК-анализа).
1.
В результате когнитивной структуризации предметной области:– сформирована база данных дерева категорий;
– подсчитано количество категорий;
– создана база данных респондентов с указанием категорий, к которым они относятся;
– сформирована база данных событий жизни;
– информация о событиях жизни включена в базу данных респондентов;
– создана база данных, непосредственно-воспринимаемая стандартным интерфейсом для внешних баз данных системы "Эйдос", объединяющая данных из базы категорий и астропризнаков по всем респондентам обучающей выборки.
Все эти работы были выполнены с помощью специальной программы, разработанной для этой цели автором статьи. При этом в качестве исходной информации использовались Excel-файлы (предоставленные В.Шашиным, С`Петербург, Россия), содержащие для каждого респондента информацию о категориях, к которым он относится и полную характеристику в форме астропризнаков. Работа этой программы на объеме выборки 20007 респондентов составляет несколько
минут на P4.Исполнимый и исходный текст программы преобразования исходных данных в файлы, непосредственно воспринимаемые одним из стандартных интерфейсов системы "Эйдос" для внешних баз данных, вместе со всеми исходными, промежуточными и результирующими базами данных а полностью функциональном состоянии можно скачать с сайта автора по ссылкам:
http://lc.kubagro.ru/astrolog/astr-all.rar и http://lc.kubagro.ru/1/astr7.rar.
2. В результате формализации предметной области:
– получены справочники классов (классификационные шкалы и градации), т.е. обобщенных категорий, включающие категории из дерева категорий, предоставленного В.Шашиным, а также события жизни;
– получены справочники астропризнаков (49 описательных шкал с суммарным количеством градаций: 532, т.е. по 12 для всех шкал, кроме накшатр);
– получена обучающая выборка, включающая данные о принадлежности к категориям и астропризнаки по 20007 респондентам.
Первоначально справочник категорий включал 10988 категорий (http://lc.kubagro.ru/1/astr8.rar), затем из него были удалены все наименее представленные респондентами категории, так что в результате осталось 500 категорий, каждая из которых была представлена не менее чем 27 респондентами. Это было необходимо сделать как для проведения обобщения (типизации), так и для того, чтобы модель просчитывалась на реально имеющихся в распоряжении авторов персональных компьютерах за разумное время.
Все эти работы выполнены автоматически одним из стандартных интерфейсов системы "Эйдос" с внешними базами данных.
3.
Синтез семантической информационной модели (СИМ).Этот этап осуществляется автоматически в системе "Эйдос" на основе баз данных, подготовленных на предыдущем этапе. Весь процесс для объема выборки 20007 респондентов при указанном количестве классов и астропризнаков занимает несколько часов машинного времени на PC IBM Pentium-4.
4.
Оптимизация СИМ (в случае целесообразности).Этот этап представляет собой ортонормирование семантического пространства астропризнаков и состоит в удалении из модели тех из них, которые оказались наименее существенными для идентификации респондентов по категориям. В данном исследовании этого не делалось.
5.
Проверка адекватности СИМ (верификация модели, измерение внутренней и внешней, дифференциальной и интегральной валидности).Данный этап является весьма существенным по двум основным причинам.
Во-первых, если модель предметной области адекватна, то непосредственное исследование предметной области корректно можно заменить исследованием ее модели, т.е. считать исследование модели исследованием самой предметной области.
Во-вторых, если модель предметной области адекватна, то можно утверждать, что получен положительный результат в проводимом исследовании, т.е. выявлены значимые зависимости между астропризнаками и принадлежностью респондентов к тем или иным категориям.
В технологии АСК-анализа и системе "Эйдос" предусмотрено несколько способов и вариантов проверки модели на адекватность из которых мы воспользовались наиболее жестким: адекватность проверялась путем контрольной идентификации случайно отобранных 1000 респондентов, данные которых не использовались при синтезе модели (бутстрепный метод [4]).
6.
Решение задач идентификации респондентов.В исследовании решалось две задачи идентификации респондентов:
1. Идентификация группы из 1000 респондентов, выбранных случайным образом из исходной выборки объемом 20007 респондентов, данные которых не использовались при синтезе модели, которая была построена на данных оставшихся 19007 респондентов.
2. Идентификация группы из 69 респондентов, данные по которым были представлены участниками форума на сайте
http://trounev.net. При этом использовались различные варианты моделей отличающиеся как наборами описательных шкал, так и количеством градаций в них.Анализ результатов идентификации 2-й группы приведен в статьях авторов [10, 11], поэтому в данной статье мы на нем останавливаться не будем, а подробнее рассмотрим результаты измерения внешней валидности путем идентификации группы из 1000 случайно отобранных респондентов, данные которых не использовались при синтезе модели.
7.
Системно-когнитивный анализ СИМ.Возможности системно-когнитивного анализа семантической информационной модели кратко описаны выше и подробнее в работах [1-10]. Часть предварительных выходных форм, получающихся при проведении АСК-анализа СИМ размещено на сайте автора по ссылкам, которые даны на упоминаемых в начале статьи форумах. Однако полное исследование полученных моделей еще предстоит выполнить.
Краткое описание некоторых полученных результатов
Итак была измерена внешняя дифференциальная (в разрезе по категориям) и интегральная (общая средневзвешенная по всем категориям) валидность модели путем идентификации группы из 1000 случайно отобранных респондентов, данные которых не использовались при синтезе модели.
Система "Эйдос" выдает две обобщенные формы по результатам идентификации:
1. В разрезе по категориям в порядке убывания достоверности их идентификации.
2. В разрезе по респондентам в порядке убывания достоверности их идентификации.
В первой форме дается эвристическая оценка достоверности идентификации категорий, а во второй – конкретных респондентов (каждого из 1000). Рассмотрим эти формы, приведенные в таблицах 1 и 2.
Код |
Наименование |
Максимальный |
Достоверность |
327 |
CATEGORIES: C1603-Sports. |
32,524 |
56,195 |
52 |
CATEGORIES: ###-Disk Collection |
9,043 |
44,192 |
454 |
EVENT_LIFE: Death, Cause unspecified. |
13,973 |
43,433 |
24 |
CATEGORIES: ###-Basketball. |
22,299 |
33,469 |
374 |
CATEGORIES: C282-Football |
32,450 |
29,927 |
190 |
CATEGORIES: A1-Book Collection. |
11,734 |
26,847 |
156 |
CATEGORIES: ###-Sexuality |
17,248 |
24,181 |
194 |
CATEGORIES: A25-Writers |
13,226 |
24,158 |
499 |
SEX: Ж. |
17,681 |
23,722 |
84 |
CATEGORIES: ###-Homosexual male |
16,699 |
20,322 |
338 |
CATEGORIES: C17817-Birth. |
23,537 |
19,778 |
118 |
CATEGORIES: ###-Occult Fields |
14,241 |
16,252 |
319 |
CATEGORIES: C15021-Astrologer |
14,484 |
15,846 |
325 |
CATEGORIES: C1592-Death |
15,781 |
15,833 |
38 |
CATEGORIES: ###-Childhood |
25,122 |
15,765 |
183 |
CATEGORIES: ###-Unusual circumstances |
27,587 |
14,819 |
192 |
CATEGORIES: A19-Famous. |
14,981 |
13,669 |
66 |
CATEGORIES: ###-Family noted. |
26,419 |
12,394 |
199 |
CATEGORIES: A38-Business. |
16,811 |
12,085 |
95 |
CATEGORIES: ###-Long life >80 yrs |
16,425 |
11,913 |
500 |
SEX: М. |
48,477 |
11,875 |
264 |
CATEGORIES: B66-American Book |
24,495 |
11,814 |
202 |
CATEGORIES: A7-Relationship |
15,796 |
10,311 |
298 |
CATEGORIES: C12770-Entertain. |
11,449 |
9,830 |
35 |
CATEGORIES: ###-Cesarean. |
27,538 |
9,480 |
107 |
CATEGORIES: ###-Misc. |
19,925 |
9,405 |
182 |
CATEGORIES: ###-UFO sighting. |
18,269 |
9,158 |
305 |
CATEGORIES: C13294-Science. |
17,188 |
9,079 |
197 |
CATEGORIES: A32-Body. |
21,872 |
-0,474 |
403 |
CATEGORIES: C7039-D.J |
18,462 |
-0,490 |
65 |
CATEGORIES: ###-Family large. |
15,681 |
-0,516 |
122 |
CATEGORIES: ###-Other Engineer. |
19,722 |
-0,521 |
149 |
CATEGORIES: ###-Same location lifetime. |
20,151 |
-0,531 |
371 |
CATEGORIES: C2726-Columnist |
22,126 |
-0,538 |
429 |
EVENT_LIFE: Assault/ Battery Perpetratio. |
21,036 |
-0,551 |
428 |
EVENT_LIFE: Arrest. |
13,478 |
-0,604 |
324 |
CATEGORIES: C1586-journalist. |
20,905 |
-0,610 |
456 |
EVENT_LIFE: Deinstitutionalized - prison. |
17,895 |
-0,615 |
470 |
EVENT_LIFE: Great Publicity |
16,112 |
-0,617 |
145 |
CATEGORIES: ###-Rags to riches. |
18,369 |
-0,803 |
270 |
CATEGORIES: B806-Child performer. |
22,950 |
-0,973 |
471 |
EVENT_LIFE: Homicide Perpetration |
22,974 |
-1,037 |
64 |
CATEGORIES: ###-Extremes in quantity. |
23,394 |
-1,230 |
Рассмотрим каким образом определяется достоверность идентификации обобщенной категории. Сделаем это на примере категории "CATEGORIES: C1603-Sports". Рассмотрим карточку идентификации респондентов с этой категорией - рис. 1.
Из-за того, что в этой карточке 1000 строк (по числу респондентов) мы сочли возможным показать не их все, а часть исключили (показаны пунктиром). В верхней части карточки приведены респонденты, которых система отнесла к данной категории. Против тех респондентов, которые к ней действительно относятся стоит знак: "
√".Система при идентификации может совершать четыре вида ошибок:
1. Относить респондентов к категории, хотя они к ней не относятся ("ошибочная идентификация", например, респондент: 15051 Prostitute 580).
2. Не относить респондентов к категории, хотя они к ней относятся ("ошибочная неидентификация", например, респондент: 15625 Rigoulot, Charl).
Эвристический критерий качества идентификации обобщенной категории сконструирован таким образом, что качество равное (+100%) получается если ошибки этих двух видов отсутствуют. При этом увеличение количества ошибок 1-го рода приближает значение критерия к 0, а 2-го рода к (–100%).
Обратим внимание на то, что в конце таблицы 1 приведены категории, с которыми респонденты чаще идентифицируются ошибочно, чем правильно. Как это может быть пока не совсем понятно.
Код |
Респондент |
Максимальный |
Достоверность |
707 |
Alcoholic 8302 |
30,616 |
20,116 |
615 |
Alcoholic 5950 |
31,856 |
19,320 |
583 |
Alcoholic 5544 |
33,596 |
19,289 |
584 |
Alcoholic 5564 |
32,657 |
19,138 |
14009 |
Out of Body Exp |
32,216 |
17,683 |
499 |
Alcoholic 10406 |
34,213 |
17,631 |
668 |
Alcoholic 6925 |
35,167 |
16,900 |
564 |
Alcoholic 5300 |
31,512 |
16,384 |
18142 |
Tolliver, B.J. |
46,818 |
16,254 |
7001 |
Graham, Jeff Qb |
46,252 |
16,223 |
10121 |
Johnson, R. Te |
47,534 |
16,129 |
5485 |
Eaumua, D. Sal |
47,782 |
16,107 |
14360 |
Pavan, Marisa |
32,490 |
-2,620 |
18366 |
Twiggy |
37,565 |
-2,769 |
3654 |
Chaplin, Michae |
20,143 |
-2,943 |
16973 |
Speakman, Hugh |
16,097 |
-2,947 |
5777 |
Estrich, Susan |
19,235 |
-3,036 |
14571 |
Phillips, Mark |
20,767 |
-3,529 |
10062 |
Johnson, Abigai |
17,987 |
-4,097 |
При анализе этой таблицы мы прежде всего обращаем внимание на то, что наиболее высокий уровень достоверности идентификации наблюдается у алкоголиков и имеющих внетелесный опыт (ВТО), т.е. опыт в измененных формах сознания. В конце этой таблицы также есть респонденты, которые системой чаще относятся к тем категориям, к котором они в действительности не принадлежат (причины чего еще предстоит выяснить в будущих исследованиях).
Эвристический критерий достоверности идентификации респондента рассчитывается по алгоритму, аналогичному описанному выше. В качестве примера приведем карточку респондента, который был идентифицирован системой с наибольшей достоверностью из всех 1000 респондентов - рис. 2. При этом система не допустила ни одной (!!!) ошибки ошибочной неидентификации, хотя и несколько раз отнесла респондента к категориям, к которым он не относится (ошибочная идентификация).
Об этой форме можно высказать гипотезу, что те категории, с которыми у данного респондента высокое сходство но он к ним фактически не относится соответствуют его нереализованным предрасположенностям, а категории, к которым он фактически относится, но система его к ним не отнесла – тем занятиям, к которым у него не было предрасположенности, но которыми он все же занимался (скорее всего не очень успешно).
Для сравнения с таблицей 1 приведем таблицу 3 с эвристической оценкой достоверности идентификации категорий на при измерении внешней валидности путем синтеза модели на основе данных 15007 респондентов и идентификации 5000 респондентов, данные которых не использовались при синтезе модели. При этом приведем два варианта, полученных, соответственно,
при отборе 5000 респондентов случайным образом и как каждого 4-го из исходной выборки.Приведем на наш взгляд интересный результат, полученный на основе идентификации 5000 респондентов (выбранных как каждый 4-й из исходной выборки), данные которых не использовались при синтезе модели, созданной на основе данных оставшихся 15007 респондентов - рис. 3.
|
Из этой карточки мы видим, что всех респондентов, в действительности относящихся к категории 221, модель смогла отнести к этой категории. На основе этого результат можно высказать гипотезу, что врожденные способности к внетелесному опыту в высокой степени предопределяются временем и местом рождения.
Идентификация
1000 случайных респондентов, |
Идентификация 5000 случайных респондентов, |
Идентификация 5000 респондентов (каждый 4-й), |
|||||||||
Наименование |
Max |
Досто- |
Код |
Наименование |
Max |
Досто- |
Код |
Наименование |
Max |
Досто- | |
327 |
CATEGORIES: C1603-Sports. |
32,524 |
56,195 |
327 |
CATEGORIES: C1603-Sports. |
33,228 |
56,091 |
327 |
CATEGORIES: C1603-Sports. |
33,007 |
54,040 |
52 |
CATEGORIES: ###-Disk Collection |
9,043 |
44,192 |
52 |
CATEGORIES: ###-Disk Collection |
10,311 |
44,499 |
52 |
CATEGORIES: ###-Disk Collection |
10,349 |
45,933 |
454 |
EVENT_LIFE: Death, Cause unspecified. |
13,973 |
43,433 |
454 |
EVENT_LIFE: Death, Cause unspecified. |
14,705 |
40,372 |
454 |
EVENT_LIFE: Death, Cause unspecified. |
14,217 |
41,169 |
24 |
CATEGORIES: ###-Basketball. |
22,299 |
33,469 |
24 |
CATEGORIES: ###-Basketball. |
22,081 |
31,943 |
374 |
CATEGORIES: C282-Football |
31,800 |
30,541 |
374 |
CATEGORIES: C282-Football |
32,450 |
29,927 |
374 |
CATEGORIES: C282-Football |
32,842 |
29,787 |
24 |
CATEGORIES: ###-Basketball. |
21,913 |
29,338 |
190 |
CATEGORIES: A1-Book Collection. |
11,734 |
26,847 |
190 |
CATEGORIES: A1-Book Collection. |
15,048 |
28,550 |
156 |
CATEGORIES: ###-Sexuality |
20,016 |
26,413 |
156 |
CATEGORIES: ###-Sexuality |
17,248 |
24,181 |
156 |
CATEGORIES: ###-Sexuality |
19,404 |
27,825 |
190 |
CATEGORIES: A1-Book Collection. |
15,744 |
26,200 |
194 |
CATEGORIES: A25-Writers |
13,226 |
24,158 |
338 |
CATEGORIES: C17817-Birth. |
25,284 |
26,463 |
338 |
CATEGORIES: C17817-Birth. |
25,200 |
24,794 |
499 |
SEX: Ж. |
17,681 |
23,722 |
499 |
SEX: Ж. |
17,499 |
23,823 |
194 |
CATEGORIES: A25-Writers |
14,165 |
23,906 |
84 |
CATEGORIES: ###-Homosexual male |
16,699 |
20,322 |
194 |
CATEGORIES: A25-Writers |
13,208 |
23,101 |
499 |
SEX: Ж. |
17,882 |
21,736 |
338 |
CATEGORIES: C17817-Birth. |
23,537 |
19,778 |
84 |
CATEGORIES: ###-Homosexual male |
18,325 |
20,047 |
84 |
CATEGORIES: ###-Homosexual male |
18,296 |
21,452 |
118 |
CATEGORIES: ###-Occult Fields |
14,241 |
16,252 |
183 |
CATEGORIES: ###-Unusual circumstances |
29,913 |
17,701 |
38 |
CATEGORIES: ###-Childhood |
26,561 |
17,291 |
319 |
CATEGORIES: C15021-Astrologer |
14,484 |
15,846 |
38 |
CATEGORIES: ###-Childhood |
27,954 |
16,682 |
183 |
CATEGORIES: ###-Unusual circumstances |
28,335 |
15,395 |
325 |
CATEGORIES: C1592-Death |
15,781 |
15,833 |
95 |
CATEGORIES: ###-Long life >80 yrs |
19,629 |
14,321 |
118 |
CATEGORIES: ###-Occult Fields |
15,612 |
14,380 |
38 |
CATEGORIES: ###-Childhood |
25,122 |
15,765 |
192 |
CATEGORIES: A19-Famous. |
14,947 |
13,419 |
192 |
CATEGORIES: A19-Famous. |
16,904 |
14,337 |
183 |
CATEGORIES: ###-Unusual circumstances |
27,587 |
14,819 |
264 |
CATEGORIES: B66-American Book |
25,195 |
13,165 |
500 |
SEX: М. |
49,872 |
14,029 |
192 |
CATEGORIES: A19-Famous. |
14,981 |
13,669 |
118 |
CATEGORIES: ###-Occult Fields |
14,959 |
12,963 |
264 |
CATEGORIES: B66-American Book |
25,207 |
13,612 |
66 |
CATEGORIES: ###-Family noted. |
26,419 |
12,394 |
325 |
CATEGORIES: C1592-Death |
20,612 |
12,644 |
95 |
CATEGORIES: ###-Long life >80 yrs |
17,286 |
13,510 |
199 |
CATEGORIES: A38-Business. |
16,811 |
12,085 |
35 |
CATEGORIES: ###-Cesarean. |
36,068 |
12,600 |
319 |
CATEGORIES: C15021-Astrologer |
15,609 |
13,215 |
95 |
CATEGORIES: ###-Long life >80 yrs |
16,425 |
11,913 |
500 |
SEX: М. |
49,538 |
12,404 |
325 |
CATEGORIES: C1592-Death |
17,043 |
12,521 |
500 |
SEX: М. |
48,477 |
11,875 |
319 |
CATEGORIES: C15021-Astrologer |
16,173 |
12,054 |
182 |
CATEGORIES: ###-UFO sighting. |
22,481 |
10,796 |
264 |
CATEGORIES: B66-American Book |
24,495 |
11,814 |
66 |
CATEGORIES: ###-Family noted. |
29,861 |
10,908 |
66 |
CATEGORIES: ###-Family noted. |
30,057 |
10,361 |
202 |
CATEGORIES: A7-Relationship |
15,796 |
10,311 |
191 |
CATEGORIES: A16-Entertainment |
16,393 |
10,016 |
107 |
CATEGORIES: ###-Misc. |
23,398 |
10,147 |
298 |
CATEGORIES: C12770-Entertain. |
11,449 |
9,830 |
202 |
CATEGORIES: A7-Relationship |
18,374 |
9,453 |
191 |
CATEGORIES: A16-Entertainment |
15,936 |
9,739 |
35 |
CATEGORIES: ###-Cesarean. |
27,538 |
9,480 |
199 |
CATEGORIES: A38-Business. |
18,674 |
9,294 |
199 |
CATEGORIES: A38-Business. |
17,618 |
9,516 |
145 |
CATEGORIES: ###-Rags to riches. |
18,369 |
-0,803 |
323 |
CATEGORIES: C15385-King |
24,620 |
-0,204 |
302 |
CATEGORIES: C12989-Chemistry. |
22,579 |
-0,162 |
270 |
CATEGORIES: B806-Child performer. |
22,950 |
-0,973 |
26 |
CATEGORIES: ###-Beauty Queen. |
25,416 |
-0,210 |
276 |
CATEGORIES: B918-Homicide serial. |
23,085 |
-0,163 |
471 |
EVENT_LIFE: Homicide Perpetration |
22,974 |
-1,037 |
277 |
CATEGORIES: B952-Psychotic Episode. |
20,844 |
-0,219 |
272 |
CATEGORIES: B837-Very happily married |
24,629 |
-0,217 |
64 |
CATEGORIES: ###-Extremes in quantity. |
23,394 |
-1,230 |
145 |
CATEGORIES: ###-Rags to riches. |
20,180 |
-0,337 |
294 |
CATEGORIES: C12292-Baseball |
28,325 |
-0,270 |
Из таблицы 3 видно, что от способа выборки респондентов для измерения внешней валидности и от их количества (в пределах от 1000 до 5000) результаты оценки достоверности идентификации категорий по результатам измерения внешней валидности изменяются не принципиально и не очень существенно.
Справочно приведем некоторые результаты исследования модели.
Вот форма, в которой 5000 случайным образом отобранных (из 20007) респондентов, данные которых НЕ ИСПОЛЬЗОВАЛИСЬ при синтезе модели, проранжированы в порядке убывания достоверности их идентификации: http://lc.kubagro.ru/astrolog/forum/raspit1.htm. Видно, что в начале списка много алкоголиков..., т.е. респонденты, относящиеся к этой категории, распознаются наиболее достоверно.
А вот карточка идентификации наиболее достоверно идентифицированного алкоголика с кодом 641: http://lc.kubagro.ru/astrolog/forum/kart-641.gif. Птичками"√" отмечены коды классов (категорий), к которым данный респондент действительно относится.
В системе "Эйдос" есть средство для вывода наиболее характерных и наиболее нехарактерных признаков любой обобщенной категории: это режим "Информационные портреты классов" 5-й подсистемы "Типология", а еще есть диаграммы нейронов: http://lc.kubagro.ru/astrolog/neuron/page_01.htm в частности и нейрона 242: http://lc.kubagro.ru/astrolog/neuron/NRN0242I.gif. Вот информационный портрет категории код-242: CATEGORIES: B31-Alcohol Abuse: http://lc.kubagro.ru/astrolog/forum/ipo_0242.htm. В начале этого информационного портрета содержатся признаки, характерные для респондентов, относящихся к данной категории, в середине - нейтральные, а в конце - нехарактерные. Список всех категорий, ранжированный в порядке убывания достоверности их идентификации приводится здесь: http://lc.kubagro.ru/astrolog/forum/raspit2.htm. Более детальная форма по достоверности идентификации классов (категорий) по результатам измерения внешней валидности семантической информационной модели приведена здесь: http://lc.kubagro.ru/astrolog/forum/validsys.htm.
Смысл полей в этой форме:
*************************************************************
01. KOD_OBJ // Код класса
02. NAME // Наименование класса
03. PS_DOST_ID // Общая вероятность достоверной идентификации логических
анкет с учетом уровней сходства-различия (в %)
04. PSLA_PROTN // Вероятность правильного отнесения логических анкет к
классу
05. PSLA_OSHOTN // Вероятность ошибочного отнесения логических анкет к
классу
06. PSLA_PRNOTN // Вероятность правильного не отнесения логических анкет к
классу
07. PSLA_OSHNOTN // Вероятность ошибочного не отнесения логических анкет к
классу
08. SLA_PROTN // Суммарное сходство логических анкет, правильно отнесенных к
классу
09. SLA_OSHOTN // Суммарное сходство логических анкет, ошибочно отнесенных к
классу
10. SLA_PRNOTN // Суммарное сходство логических анкет, правильно не
отнесенных к классу
11. SLA_OSHNOTN // Суммарное сходство логических анкет, ошибочно не
отнесенных к классу
12. PN_DOST_ID // Общая вероятность достоверной идентификации логических
анкет с учетом количества логических анкет (в %)
13. PNLA_PROTN // Вероятность правильного отнесения логических анкет к
классу
14. PNLA_OSHOTN // Вероятность ошибочного отнесения логических анкет к
классу
15. PNLA_PRNOTN // Вероятность правильного не отнесения логических анкет к
классу
16. PNLA_OSHNOTN // Вероятность ошибочного не отнесения логических анкет к
классу
17. N_LOGANK // Количество логических анкет, относящихся к данному классу
18. NLA_PROTN // Количество логических анкет, правильно отнесенных к данному
классу
19. NLA_OSHOTN // Количество логических анкет, ошибочно отнесенных к данному
классу
20. NLA_PRNOTN // Количество логических анкет, правильно не отнесенных к
данному классу
21. NLA_OSHNOTN // Количество логических анкет, ошибочно не отнесенных к
данному классу
22. PN_RANDUGAD // Вероятность случайного угадывания (правильного отнесения
лог.анк. к классу)
23. P_EFFEKTMOD // Эффективность модели (во сколько раз она лучше, чем
случайное угадывание)
*************************************************************
А вот карточка идентификации респондентов (всех 5000) с наиболее достоверно идентифицируемым классом (327 CATEGORIES: C1603-Sports): http://lc.kubagro.ru/astrolog/forum/rspkart2.htm. Птички "√" указывают на респондентов, которые действительно относятся к этому классу. Еще раз отметим, что данные ЭТИХ респондентов не были использованы для синтеза модели.
Список астропризнаков, ранжированный в порядке убывания содержащегося в них среднего количества информации о принадлежности респондентов к категориям (аналог значимости, т.е. полезность для решения задачи идентификации): http://lc.kubagro.ru/astrolog/priz_per.htm. Видно, что там в начале почти один Плутон, и немного Нептун, и с количеством градаций от максимального до среднего.
Так как при проведении данного исследования авторы никоим образом не использовали никаких априорных основных положений, аксиом и постулатов астрологии, а основывались лишь исключительно на эмпирических астрономических данных о респондентах на момент рождения и эмпирических, данных об их социальном, психологическом, психофизиологическом и медицинском статусе, а также методах искусственного интеллекта (в данном случае это АСК-анализ), то, как мы считаем, можно обоснованно говорить о том, что данное исследование фактически является исследованием в новой области науки, которую предлагается назвать астросоциологией.
По нашему мнению астросоциология является наукой, так как она:
– имеет свой специфический ОБЪЕКТ И ПРЕДМЕТ исследования: выявление и изучение взаимосвязей между астрономическими данными респондентов на момент рождения и их социальным, психологическим, психофизиологическим, физическим и медицинским статусом, а также использование знания этих взаимосвязей для прогнозирования и поддержки принятия решений;
– имеет свой МЕТОД и реализующий его программный инструментарий: в настоящее время это Автоматизированный системно-когнитивный анализ (АСК-анализ) и его инструментарий: Универсальная когнитивная аналитическая система "Эйдос", но в будущем, мы уверены, метод астросоциологии будет включать и другие математические методы и инструментальные системы искусственного интеллекта;
– позволяют открывать НОВЫЕ, ранее неизвестные ЗНАНИЯ непосредственно на основе анализа эмпирических данных и использовать эти знания для повышения эффективности достижения научных и прагматических целей (см.таблицу)
№ |
Характеристика |
Астрология |
Астросоциология |
1 |
Цели и задачи |
Прагматические: получение прогноза для конкретного респондента |
Научные: выявление и изучение зависимостей между астрономическими данными респондентов на момент рождения и их статусом. Прагматические: получение прогноза для конкретного респондента |
2 |
Объект и предмет исследования |
Конкретный респондент |
Базы данных по десяткам, а в перспективе сотням тысяч и даже миллионам респондентов. |
3 |
Эмпирическая база |
Отсутствует |
Базы данных по десяткам, а в перспективе сотням тысяч и даже миллионам респондентов. |
4 |
Метод исследования |
Натальная карта |
Естественно-научный метод, методы и инструментарий искусственного интеллекта (в настоящее время АСК-анализ и система "Эйдос") |
5 |
Знания зависимостей между астрономическими данными на момент рождения респондентов и их статусом |
Известны заранее |
Выявляются непосредственно из эмпирических данных с применением методов и инструментария искусственного интеллекта |
6 |
Содержательная интерпретация зависимостей между астрономическими данными респондентов на момент рождения и их статусом, т.е. выяснение реальных механизмов действия |
Не предполагается |
Является одной из задач |
Конечно, цели и задачи, объект и предмет исследования астросоциологии сходен с предметом астрологии, однако это уже не астрология, а наука, т.к. в отличие от астрологии, в ней используется современный естественно-научный метод и полученные результаты не только в принципе допускают содержательную интерпретацию, но выяснение реальных механизмов реализации исследуемых взаимосвязей рассматривается как одна из задач астросоциологии.
Главный результат проведенного исследования состоит в том, что вообще нашлись довольно достоверно идентифицируемые классы (обобщенные категории). Значит все же зависимости между астропризнаками и принадлежностью респондентов к категориям существуют, но сильными они являются лишь для некоторых категорий, для которых и можно получить достаточно достоверные прогнозы. Для подавляющего же большинства категорий достаточно сильных для практического использования зависимостей между астропризнаками и принадлежностью респондентов к ним не обнаружено.
Второй по важности результат состоит в том что для одних респондентов прогнозы получаются очень достоверными, для других не очень, а для третьих их вообще нельзя назвать прогнозами. По-видимому, это связано с тем, к каким категориям в действительности относятся данные респонденты: к достоверно идентифицируемым или нет.
Но если бы таких зависимостей выявить не удалось, то для нас это не стало бы доказательством их не существования: мы бы лишь сказали, что применяемые нами математические методы и программный инструментарий (система "Эйдос") не позволили выявить этих зависимостей, а сами они может быть существуют, а может быть и нет.
Во всяком случае авторы считают, что любые высказывания о несуществовании чего-либо не являются научными, т.к. невозможно доказать несуществование, принципиально доказуемо только существование.
В данной работе мы оставили в стороне интереснейшие вопросы:
1. Какими физическими или иными механизмами (процессами) могут быть обусловлены выявленные зависимости, т.е. каким образом астрономические показатели респондентов на момент рождения (астропризнаки) детерминируют их принадлежность к тем или иным социальным и психофизиологическим категориям.
2. На сколько выявленные зависимости совпадают с уже известными в астрологии (если подобные зависимости уже известны).
Первый вопрос – это вопрос об "объяснении" механизма возникновения и действия этих зависимостей и об их содержательной интерпретации. По-видимому, в этом плане в настоящее время мы будем вынуждены ограничиться лишь высказыванием тех или иных гипотез. В любом случае это дело специалистов в области астрономии, социологии, психологии и психофизиологии.
Второй вопрос также выходит за рамки настоящей статьи и нуждается в совместном исследовании специалистов в области астрологии и интеллектуальных методов обработки эмпирических данных.
В любом случае рассматриваемая в статье задача представляют собой "крепкий орешек" для любой системы искусственного интеллекта, прежде всего из-за своей огромной размерности, а также сильной зашумленности и фрагментарности (неполноты) данных. Так что эта задача интересна не только для астрологов, но и для разработчиков интеллектуальных систем, для которых она может рассматриваться как довольно жесткий тест на качество математических моделей и реализующих их программных продуктов, типа репозитария UCI [12].
В перспективе авторы планируют продолжить исследования на больших объемах выборки и с более совершенными наборами категорий и астропризнаков, в частности с различным количеством интервалов (секторов) в описательных шкалах в одной модели. В результате авторы надеются разработать более качественные, надежные и достоверные модели, а затем провести их детальный системно-когнитивный анализ.
Данная статься является примером выполнения совместного исследования авторами, живущими в разных странах за тысячи километров друг от друга, что стало возможным благодаря Internet. Необходимо отметить, что работы выполнены при постоянной поддержке и участии посетителей сайтов
www.trounev.net/ , http://www.trounev.com/ .Проблема обсуждалась на форумах:
– http://www.trounev.net/Forum/index.php?showtopic=118&st=0 (начало темы);
– http://trounev.com/phpBB/viewtopic.php?p=1661%231661 (продолжение).
Авторы искренне благодарят всех участников дискуссии.
Примечание:
Для обеспечения доступа читателей к этим и другим работам они размещены в Internet по адресам: