Chaos and Correlation
International Journal, No 8, July 18, 2007

Метод разделения категорий в задаче типизации и идентификации субъектов по астрономическим данным на момент рождения

©Евгений Луценко (Краснодар, Россия)

©Александр Трунев (Торонто, Канада)

©Владимир Шашин (Санкт-Петербург, Россия)

В работе /1/ выполнено исследование моделей распознавания субъектов по астрономическим данным на момент рождения с целью определения наиболее эффективного алгоритма идентификации и типизации для профессиональной базы данных (БД) содержащей 387 категорий на 12 сетках различного масштаба. Было установлено, что категории можно разбить на три класса в зависимости от поведения параметра сходства от числа секторов. К первому классу были отнесены категории, для которых параметр сходства убывает с ростом числа секторов. Ко второму классу относятся категории, у которых параметр сходства возрастает с ростом числа секторов, а к третьему классу - категории, у которых параметр сходства ведет себя немонотонно. Логично предположить, что если отобрать категории первого класса в отдельную базу данных, то для их распознавания достаточно будет сетки из четырех секторов. В данной работе изучен вариант модели распознавания субъектов по астрономическим данным на момент рождения для профессиональной БД содержащей 184 категории первого и третьего класса на сетке из 4-х секторов. Установлено, что для этих категорий параметр сходства практически не зависит от частоты встречаемости категорий в исходной БД, содержащей 20007 данных независимых респондентов. Путем исключения категорий первого и третьего класса из профессионально БД содержащей 387 категорий, была получена база данных категорий второго класса в составе 203 категорий и установлены общие свойства категорий всех классов.

Исходные данные и результаты идентификации категорий первого и третьего класса

Исходные данные задачи представляют собой таблицу, содержащую 20007 записей (строк) независимых респондентов, каждый из которых характеризуется номером записи, именем, полом, датой и временем рождения, местом рождения, собственной биографией и набором категорий и событий жизни. На основе данных места и времени рождения вычислялись астрономические параметры. В качестве входных астрономических параметров модели использовались координаты долготы углов 12 домов (в системе Плацидуса), Лунных Узлов и 10 небесных тел – Солнца, Луны, Меркурия, Венеры, Марса, Юпитера, Сатурна, Урана, Нептуна, Плутона.

Общее число категорий, определенное для исследуемой БД, составляет 1907. Из списка категорий были отобраны те из них, которые соотносятся с профессиями и для которых параметр сходства убывает с ростом числа секторов или изменяется немонотонно. Полученный список профессиональных категорий содержит только 184 наименования (см. таблицу 1), которые представлены в исходной БД с разной частотой встречаемости - рис. 1. Частотное распределение с большой степенью точности описывается экспонентой (распределение Пуассона) - прямая сплошная линия на рис. 1. Суммируя все частоты, находим общее число исследуемых случаев N= 60011. Учитывая, что в исходной БД содержится 20007 данных независимых респондентов, находим среднее число категорий, приходящихся на одну карту, n=N/20007=2,9995.

Подробное описание алгоритмов идентификации дано в работах /2-5/. В настоящей работе распознавание осуществлялось на сетке из 4-х секторов, полученных путем деления круга зодиака на 4 части, начиная с нулевого градуса знака Овна. Как оказалось, для отобранных категорий параметр сходства практически не зависит от частоты встречаемости категории - рис. 2, тогда как в аналогичной задаче параметр сходства убывает с ростом частоты /1/. Можно сравнить параметры сходства идентичных категорий в этих двух задачах - рис. 3. Как следует из полученных данных, эти параметры связаны линейной зависимостью, причем параметр сходства при распознавании категорий в составе БД из 184 категорий приблизительно на 10% выше, чем в составе БД из 387 категорий (см. рис. 3). Отсюда следует, что обратная зависимость параметра сходства от частоты /1/, возникает из-за наличия в исследованной в работе /1/ БД 203 категорий второго класса. Эти категории отличаются малой частотой встречаемости, поэтому вероятность их случайного угадывания является крайне низкой. При распознавании категорий этого класса требуется большое число входных параметров, поэтому они хорошо распознаются на сетках с большим числом секторов (число входных параметров задачи пропорционально числу секторов).

Упорядочивая данные таблицы 1 по параметру сходства, можно выделить наиболее хорошо распознаваемые категории первого класса - таблица 2. Среди 32 категорий, приведенных в этой таблице, 8 составляют спортивные категории, 6 - различные бизнесы, 5 - оккультные, 3 - медицинские доктора, 3 - дизайнеры, фотографы и художники, 2 - писатели детективов и фантастики, 2 - игроки, 2 - строители и 1 - экипажи судов, поездов и автобусов.

Таблица 2. Список наиболее хорошо распознаваемых категорий первого класса

NAME

Абсолютная частота

Параметр сходства

SC:B173-Sports:Football

1613

77,513

SC:B111-Sports:Basketball

2385

66,584

SC:A53-Sports

4567

61,060

SC:B626-Occult Fields:Out of Body exper

162

60,572

SC:C405-Business:Sex Business:Prostitut

165

48,612

SC:C1198-Occult Fields:Psychic/ Medium/

77

47,683

SC:C1340-Medical:Doctor:Chiropractor

33

45,495

SC:B404-Business:Sex Business

194

44,538

SC:C170-Medical:Doctor:Psyhotherapist

79

39,617

SC:B41-Occult Fields:UFO sighting

502

27,020

SC:B236-Business:CPA/ Auditor/ Accounta

45

26,465

SC:B406-Art:Stage/ Set design

26

24,514

SC:B437-Sports:Skiing

24

20,817

SC:B238-Business:Clerical/ Secretarial

158

19,036

SC:C422-Occult Fields:Psychic/ Medium/

26

18,923

SC:B496-Sports:Boxing

55

18,701

SC:B272-Art:Cartoonist

31

18,339

SC:B246-Financial:Winnings/ Lottery

59

17,445

SC:B715-Sports:Field and Track

47

17,433

SC:B492-Sports:Skating

45

17,096

SC:B256-Art:Photography

47

17,045

SC:B54-Sports:Baseball

72

16,967

SC:B217-Travel:Crew/ Ship, Train, Bus

28

16,698

SC:D988-Occult Fields:Astrologer:Pro:AF

50

16,544

SC:B374-Business:Sports Business

40

16,361

SC:C709-Medical:Doctor:Surgeon

30

16,326

SC:C303-Business:Business/Marketing:Sto

30

16,141

SC:C250-Work:Building Trades:Builder

44

15,169

SC:B259-Writers:Sci-Fi/ Fantasy/ Horror

47

14,761

SC:B511-Writers:Detective/ Mystery

33

14,608

SC:B315-Financial:Gambling

35

14,266

SC:C631-Work:Building Trades:Architect/

48

13,597

Плохо распознаваемые категории этого класса приведены в таблице 3. Из 32 категорий этого типа 12 составляют различные знаменитости (!), 6 - наука и образование, 5 - журналисты, писатели и издатели журналов, 2 - политики, 2 - юристы, 2 - музыканты-инструменталисты и по одной категории фермеров, оккультистов и финансистов. Интересно, что если знаменитостей сгруппировать в отдельные категории по характеру получаемой премии, то они попадают во второй класс и распознаются довольно хорошо. Рассмотрим этот вопрос более подробно.

Таблица 3. Плохо распознаваемые категории первого класса.

NAME

Абсолютная частота

Параметр сходства

SC:A108-Education

1002

3,024

SC:C149-Famous:Greatest hits: Occult field

118

2,834

SC:C603-Work:Food and Beverage:Farmer/

44

2,774

SC:C636-Famous:Awards:Hall of Fame

62

2,732

SC:B16-Famous:News figure

130

2,341

SC:B33-Writers:Columnist/ journalist

213

2,310

SC:A120-Science

466

1,999

SC:C125-Science:Biology:Medicine

311

1,980

SC:C110-Education:Teacher:High school t

150

1,967

SC:C296-Famous:Greatest hits:Astrology

173

1,915

SC:B171-Writers:Playwright/ script

233

1,828

SC:C260-Famous:Greatest hits:Writing fi

262

1,779

SC:B46-Famous:Awards

973

1,755

SC:A40-Occult Fields

2396

1,694

SC:C11-Entertainment:Music:Instrumental

461

1,120

SC:B105-Writers:Textbook/ Non-fiction

569

0,875

SC:B158-Politics:Public office

475

0,729

SC:C551-Famous:Greatest hits:Science fi

100

0,684

SC:B6-Entertainment:Music

1086

0,563

SC:B109-Education:Teacher

636

0,430

SC:A99-Financial

1075

0,017

SC:B505-Education:Public speaker

179

-0,067

SC:B152-Law:Attorney

280

-0,644

SC:A151-Law

400

-0,842

SC:B52-Famous:Historic figure

322

-0,923

SC:B106-Writers:Publisher/ Editor

271

-0,929

SC:A19-Writers

2222

-1,255

SC:A38-Politics

1039

-1,875

SC:B340-Famous:Royal family

214

-3,105

SC:B45-Famous:Greatest hits

1794

-4,091

SC:B48-Famous:Top 5% of Profession

1073

-5,363

SC:A15-Famous

3372

-16,945

 

Общие свойства категорий второго класса

Список категорий второго класса, упорядоченных по частоте встречаемости, приведен в таблице 4 вместе с параметром сходства, полученным на сетке, содержащей 72 сектора. Частотное распределение категорий второго класса с большой степенью точности описывается степенной функцией - рис. 4. Зависимость параметра сходства от частоты также описывается степенной функцией - рис. 5. Поскольку вероятность случайного угадывания пропорциональна частоте встречаемости, из этих данных следует, что для второго класса категорий параметр сходства обратно пропорционален вероятности случайного угадывания в степени a=0,5594.

Рассмотрим категорию ЗНАМЕНИТЫЙ (Famous), разбитую на малые группы по характеру получаемой премии или социальному отличию - таблица 5. Из данных этой таблицы следует, что обладатели редких премий распознаются лучше, нежели обладатели известных, но широко распространенных премий. Становится понятной и закономерность, отраженная на рис. 5. Малочисленные группы в ряду многочисленных групп всегда более заметны, поэтому распознаются лучше. Например, эфиоп на улицах Москвы будет более заметен, нежели в ряду соплеменников на улицах Аддис-Абебы, поэтому его легко будет распознать. С другой стороны, блондин из Москвы, впервые попавший на улицы Аддис-Абебы, немедленно попадет в малочисленную категорию белых людей, поэтому будет легко узнаваем. В этом смысле распознавание в системе искусственного интеллекта АИДОС существенно отличается от простой статистики, в которой главным критерием достоверности является отклонение от генеральной совокупности.

Таблица 5. Категория Famous (знаменитый) разбитая на малые группы по характеру премии

NAME

Абсолютная частота

Параметр сходства

SC:C1234-Famous:Awards:Peabody

3

85,512

SC:D258-Famous:Greatest hits:Art field:Photography field

12

36,070

SC:C1043-Famous:Awards:Honorary degrees

17

33,782

SC:D635-Famous:Greatest hits:Art field:Fashion field

23

25,813

SC:C587-Famous:Awards:Grammy

37

23,461

SC:B750-Famous:Socialite

37

23,413

SC:D150-Famous:Greatest hits:Occult field:Spiritual field

43

18,411

SC:C690-Famous:Awards:Pulitzer prize

52

18,231

SC:C362-Famous:Greatest hits:Business field

50

16,385

SC:C588-Famous:Awards:Emmy

76

12,811

SC:D307-Famous:Greatest hits:Social field:Political field

95

10,432

SC:C306-Famous:Greatest hits:Social field

110

10,186

SC:C344-Famous:Awards:Oscar

153

9,158

SC:D60-Famous:Greatest hits:Art field:Beauty

184

7,649

SC:D67-Famous:Greatest hits:Art field:Music field

237

6,256

SC:C59-Famous:Greatest hits:Art field

534

3,650

При объединении знаменитостей в одну категорию A15-Famous получается довольно многочисленная группа (3372 случая), которая не имеет никаких общих признаков, кроме того, что эти люди знамениты. Поэтому параметр сходства/различия у этой группы имеет значение -16,945, что указывает на неоднородность группы. При разбиении же группы на малые подгруппы с ярко выраженными профессиональными признаками, параметр сходства становится положительным, что указывает на возросшую однородность состава подгрупп. Аналогичный пример дает категория ОБРАЗОВАНИЕ - таблица 6. Малые группы преподавателей, объединенные по специальностям, распознаются на порядок лучше, чем общая категория A108-Education, содержащая 1002 случая (см. таблицу 3). При этом подгруппы общей категории относятся ко второму классу, т.е. хорошо распознаются на сетке из 72 секторов, а общая категория относится к первому классу, т.е. лучше всего распознается на сетке из 4 секторов.

Таблица 6. Категория ОБРАЗОВАНИЕ разбитая на малые подгруппы

NAME

Абсолютная частота

Параметр сходства

SC:D1256-Education:Teacher:Science:Computer science

3

87,215

SC:C1486-Education:Public speaker:Brilliant orator

3

86,079

SC:D1246-Education:Teacher:Science:Philosophy

3

85,142

SC:C1130-Education:Teacher:Nursing

3

85,135

SC:D1414-Education:Teacher:Science:Psychology

3

81,323

SC:C1434-Education:Teacher:Adult Education

4

77,007

SC:C1257-Education:Teacher:Coach

4

76,057

SC:C1262-Education:Teacher:Special Ed

4

73,722

SC:E508-Education:Public speaker:Lecturer:Astrology lecturer:Speaker at AFA conventions

3

73,083

SC:D1105-Education:Teacher:Science:Physics

6

57,329

SC:D1180-Education:Teacher:Science:History

6

57,290

SC:B762-Education:Librarian

7

56,983

SC:D951-Education:Teacher:Art:Dance

6

56,144

SC:D755-Education:Teacher:Occult teacher:Religous

8

56,121

SC:D507-Education:Public speaker:Lecturer:Astrology lecturer

6

54,198

SC:C229-Education:Engineer:Chemical

9

50,112

SC:C1151-Education:Teacher:Medicine

9

48,512

SC:C983-Education:Engineer:Civil

8

48,310

SC:C1219-Education:Teacher:Communications

10

46,212

SC:C783-Education:Teacher:Physical education/Gymnastic/Sport

12

40,930

SC:D1010-Education:Public speaker:Lecturer:International lecturer

12

38,247

SC:C619-Education:Teacher:Language/English

19

35,764

SC:C705-Education:Teacher:Occult teacher

18

35,053

SC:C1174-Education:Engineer:Electrical

19

33,407

SC:C159-Education:Teacher:Art

25

28,574

SC:C500-Education:Teacher:Music

25

27,795

SC:C637-Education:Engineer:Aerospace

24

26,285

SC:C803-Education:Engineer:Mechanical

30

23,321

SC:C684-Education:Teacher:School/College teacher

35

22,535

SC:C560-Education:Teacher:Astrology

35

22,291

SC:D451-Education:Teacher:High school teacher:Professor

109

9,100

SC:C506-Education:Public speaker:Lecturer

122

9,088

 

Обсуждение

Существуют категории, например, B173-Sports:Football, которые характеризуют заведомо однородные группы, объединенные по яркому профессиональному признаку. У этой группы самый высокий параметр сходства среди категорий первого класса, несмотря на ее многочисленность (1613 случаев). На втором месте по параметру сходства оказалась группа баскетболистов - см. таблицу 2. Но если объединить футболистов и баскетболистов в одну большую группу СПОРТ, параметр сходства понижается, поскольку группа становится неоднородной. Такие многочисленные однородные по составу группы хорошо распознаются на сетке из четырех секторов. С другой стороны, малочисленные однородные группы хорошо распознаются на сетках с большим числом секторов (в данной работе распознавание осуществлялось на сетке, включающей 72 сектора). На первый взгляд кажется, что признаки малочисленных профессиональных групп не могут быть использованы для тестирования, поскольку не выполнены статистические критерии достоверности. На самом же деле критерий сходства отличается от стандартных критериев достоверности, типа критерия Стьюдента. Критерий сходства хорошо иллюстрирует следующий пример. Предположим, что у нас есть база данных, включающая 20007 фотографий известных людей. Мы хотим протестировать фотографии неизвестных людей, чтобы выяснить, на кого они более всего похожи внешне. У нас есть интеллектуальная система, которая позволяет отобрать из БД насколько десятков фотографий и расставить их по параметру сходства. При этом оказывается, что на одних фотографиях схожесть достигается за счет формы носа, на других за счет овала лица, на третьих за счет разреза глаз и т.д. Заменим теперь фотографии на карты рождения, включающие описание астрономических параметров, социальных и психологических категорий. Задача распознавания при этом не изменилась, но на выходе мы получим набор категорий, характеризующих тестируемого субъекта. Если при этом субъект оказался похож на малочисленную профессиональную категорию, то это нельзя назвать простым совпадением. Ведь совпадение с малочисленной группой маловероятно. Кроме того, путем прямых экспериментов доказано, что вероятность распознавания по астрономическим данным на момент рождения в сотни раз превосходит вероятность случайного угадывания /2/. Следовательно, полученные результаты так или иначе могут быть отнесены к числу характеристик субъекта, но при этом необходимо помнить, что сходство и подобие не означает тождество.

Заметим, что первые эксперименты по идентификации и типизации субъектов по астрономическим данным на момент рождения были выполнены на смешенной базе данных, содержащей 500 социальных (профессиональных) и личностных (в т.ч. психологических) категорий /4-5/. Для повышения уровня параметра сходства и достоверности идентификации была образована новая база данных, содержащая только 387 социальных (профессиональных) категорий /1-2/. Полученные с ее помощью результаты отличаются высокой степенью достоверности идентификации. Рассмотренный в настоящей работе метод позволяет повысить параметр сходства путем разделения категорий на классы, не увеличивая числа входных параметров задачи.

Ссылки

  1. Луценко Е., Трунев А., Шашин В. Алгоритмы и законы типизации и идентификации субъектов по астрономическим данным на момент рождения. . Chaos and Correlation, No 8, July 5, 2007. – Toronto, Canada, – Режим доступа: http://trounev.com/Chaos/No8/AIDOS8/aidos8.htm
  2. Луценко Е.В., Трунев А.П., Шашин В.Н. ТИПИЗАЦИЯ И ИДЕНТИФИКАЦИЯ РЕСПОНДЕНТОВ В СОЦИОЛОГИИ ПО ИХ АСТРОНОМИЧЕСКИМ ПОКАЗАТЕЛЯМ НА МОМЕНТ РОЖДЕНИЯ/Научный журнал КубГАУ, № 25(1), январь 2007, http://ej.kubagro.ru/2007/01/pdf/14.pdf
  3. Луценко Е.В., Трунев А.П, Шашин В.Н. Типизация и идентификация респондентов, описанных астрономическими показателями на момент рождения по социальным и психофизиологическим категориям с применением АСК анализа. Chaos and Correlation, No 1, November 30, 2006. – Toronto, Canada, – Режим доступа: http://trounev.com/Chaos/No1/AIT59.htm
  4. Луценко Е., Трунев А., Шашин В. Метод пакетного распознавания карт рождения в системе искусственного интеллекта ЭЙДОС. The World Astrology Review, No 10 (58), October 31, 2006, http://trounev.com/thewar/No58/AIT58_1.htm
  5. Lutsenko Eugene, Trounev Alexander, Shashin Vladimir. Method of birth chart recognition by using the artificial intelligence system AIDOS. Chaos and Correlation, No 1, November 30, 2006. – Toronto, Canada, – Режим доступа: http://trounev.com/WordPress/?p=23#more-23