Дмитрий » Ср авг 16, 2023 6:57 am
Суммирование и умножение это технология древности теряющейся в веках и тысячелетиях однако она и сегодня актуальна как никогда. Наши компьютеры фактически основаны на суммировании и умножении. В общем навешивать на технологию штамп о ее принадлежности к какому-то веку - какая-то глупость. Я её не понимаю. Для меня любые технологии - это сумма накопленного человечеством по крупицам за всю историю его существования. И не важно в какое именно время были найдены те или иные части общего знания, важно что сегодня сумма всего этого знания дает нам возможность получить полезный сегодня функционал. Как-то странно презрительно относиться к какому-то знанию только потому что оно было найдено давно, вместо того чтобы оценивать какие возможности оно даёт нам сейчас.
=====
Если говорить конкретно про chatGPT то его успех на самом деле определяется не только тем что это нейросеть. Это же не только нейросеть а система имеющая определенную архитектуру. На нейросетях много разного делали но выстрелил именно chatGPT. И здесь нужно рассмотреть именно его архитектуру чтобы проанализировать и понять причину его успеха.
А суть чата GPT в том что это система основанная не на анализе входной картины целиком а на последовательном считывании картины - то есть там заложена лингвистическая модель обрабатывающая вербальные последовательности. Это ограниченная модель. И тем не менее - она выстрелила. Она очень похожа на наше собственное человеческое вербальное мышление - это именно обработка вербальных цепочек а не восприятие окружающего мира как целого. То есть чат GPT принципиально основан на работе с вербальными цепочками - он даже картинки не может обрабатывать как это умеют другие нейросети.
Суть такой модели - она предполагает что мир может быть адекватно смоделирован если не воспринимать его целиком но воспринимать лишь локализованную область и знать логические связи между этой областью и соседними. Если следуя логическим связям генерировать соседнюю область из текущей а затем следующую из той и так далее то предполагается что можно достоверно описать большую область реального мира. И как показала практика ChatGPT это действительно неплохо работает в какой-то мере.
Такая модель предполагает что наше знание логических связей между соседними локализованными частями реального мира является достаточно точным чтобы мы, наблюдая лишь небольшой локализованный пятачок этого мира могли точно сгенерировать соседние и за ними по цепочке далее остальные. Это конечно сильное предположение, однако как показала практика оно действительно в какой-то мере неплохо сработало.
В каких случаях такая модель будет работать плохо? В тех случаях когда наше знание логических связей между локализованными областями является неточным. Тогда генерация цепочки будет приводить к накоплению ошибки, и если цепочка достаточно длинная то в её конце накопление ошибки будет достигать такого размера что результат будет полностью недостоверный. То есть эффективность такой модели определяется двумя параметрами - точностью знания логических связей между соседними звеньями цепочки и длиной цепочки. Если знание логических связей достаточно точно а длина цепочки в разумных пределах то такая модель действительно может давать результаты очень неплохого качества.
За точность знания логических связей между звеньями в chatGPT отвечает нейросеть. И это даёт очень хорошую точность знания законов связывающих звенья, благодаря чему генерируются достаточно длинные вербальные цепочки которые на большой длине сохраняют очень неплохую адекватность.
Нейросеть можно рассматривать как черный ящик у которого есть вход и выход. На вход подается некоторая информация, внутри черного ящика над ней выполняются какие-то преобразования, и с выхода снимается некоторая преобразованная информация. Таким образом нейросеть можно рассматривать как вариант логического элемента, наподобие использующихся в компьютерной технике логических элементов И, ИЛИ, НЕ. Только нейросеть позволяет наряду с этими логическими элементами реализовать бесчисленное множество всяких разных других. Какое именно логическое преобразование выполняет нейросеть определяется именно структурой весов связей между нейронами. Но здесь мы рассматриваем нейросеть как черный ящик и не вдаемся в его внутреннюю структуру. Нам здесь лишь важно понимать что этот черный ящик выполняет определенное логическое преобразование входных данных и выдает на выход преобразованные данные. Таким образом нейросеть в таких как описана выше лингвистических моделях играет роль логического элемента на вход которого подается некая лингвистическая конструкция (слово, продложение, часть текста) и этот логический элемент генерирует следующий фрагмент лингвистической конструкции, затем этот результат подается на вход и из него далее генерируется очередная порция продолжения и так далее.
Такие лингвистические модели ИИ использовались еще на заре компьютерной эры. Но тогда в качестве логических связей между лингвистическими элементами использовались не основанные на нейросетях а прописанные человеком в виде каких-то строгих правил. Это в определенной мере работало но гораздо хуже чем это продемонстрировал chatGPT. А всё дело именно в точности и адекватности этих правил - человеку сложно выявить и описать по настоящему адекватные и точные правила. Как правило те старые модели и описывались простыми детерминистскими правилами недалеко ушедшими по сложности от тех самых элементов И, ИЛИ, НЕ. Нейросеть же позволяет реализовывать гораздо более сложные и точные логические правила, причем не только дискретные но и аналоговые - то есть говоря по простому выходы нейросети это не 0 и 1 а кривые графики сложных функций. Сложность и точность преобразования которое выполняет нейросеть определяется количеством нейронов-связей и качеством обучения. Если нейросеть имеет достаточно большое количество нейронов и связей то она может воспроизвести в себе достаточно сложную структуру преобразований чтобы они были достаточно близки к реальной закономерности реализующейся в реальном мире. Если же при этом нейросеть была обучена на достаточном количестве и разнообразии обучающих данных снятых с реального мира то этот потенциал в полной мере реализуется и нейросеть получается очень точно моделирующей реальную причинно-следственную связь между соседними локальными частями реального мира. И именно поэтому такие модели оказываются достаточно сильными
Однако нужно понимать и ограниченность такой модели. Она хотя и позволяет генерировать достаточно длинные цепочки причинно-следственных связей не скатываясь в полный неадекват, тем не менее накопление ошибки всё равно происходит и отклонение сгенерированной картины от реальности постепенно по мере длины цепочки всё равно возникает. И это может быть причиной казусов. Что мы и наблюдаем на практике с chatGPT
То есть данная модель неплоха, но можно лучше. Есть пища для размышления. Стоит строить более сложные системы. Мне видится что нужно каким-то образом объединить подобную лингвистическую модель с образной которая воспринимает не локализованную часть внешнего мира а мир целиком но разумеется с меньшей подробностью - размыто и укрупненно. Но взаимодействие двух этих частей должно дать по настоящему сильные результаты. По сути внутри нейросети chatGPT уже частично есть такое укрупненное описание мира целиком - без этого она не могла бы быть такой точной. Тем не менее нужно еще специально выделить подсистему которая не опосредованно а целенаправленно будет заточена именно на работу с укрупненным описанием мира целиком а не цепочек из локализованных частей.
если сравнивать chatGPT с нашим мозгом то в этой модели реализовано некое подобие нашего левого полушария, которое работает преимущественно именно с лингвистическими цепочками - рассматривает мир как локализованные части взаимодействующие по определенным правилам. Нужно добавить в модель еще свойства нашего правого полушария мозга - которое рассматривает мир как целый образ обладающий свойствами. Две эти части дадут более сильное сходство с тем как работает наш мозг.
Пока же chatGPT демонстрирует свойства очень похожие на свойства левополушарных людей. Это такие заучки отличники которые блестяще воспроизводят заученное знание но пасуют в ситуациях когда нужно эвристическое мышление. chatGPT блестяще выдает энциклопедические ответы и идеально подходит для изучения чего либо, как альтернатива поисковым системам. То есть в отличие от традиционных поисковых системы ты с ним просто общаешься на человеческом языке и он подробно и точно тебе ответит на каждый твой конкретный вопрос если это связано с выдачей каких-то известных знаний - например с chatGPT можно очень эффективно изучать языки программирования, те или иные распространенные технологии и т.п. Но там где ты от него требуешь сгенерировать нечто новое, что еще не было изобретено - там он пасует. Выдает либо полный бред либо признается что бессилен.