Eugene Lutsenko » Чт авг 23, 2018 2:48 am
Я думаю, надо провести улучшение обучающей выборки:
- можно просто оставить в ней только те объекты, которые больше всего похожи на обобщенные образы классов, а которые не очень похожи выбросить и не использовать для формирования обобщенных образов классов;
- но лучше провести кластерный анализ обучающей выборки и разбить классы на подклассы, а потом идентификацию с подклассом считать идентификацией с классом.
Это реализовано в системе Эйдос в режиме дивизивной кластеризации, но я использую 1-й вариант, как более простой. Первым шагом для этого после синтеза моделей является распознавание всей обучающей выборки. Это займет по прогнозу полтора часа. Потом запущу дивизивную кластеризацию и пересинтез моделей (сиснтез моделей занимает около получаса). А потом проведу распознавание в новых моделях (15 минут в одной модели) и будем посылать новые результаты. Для всего этого решил использовать модель inf1k (inf2k от нее в этом смысле не отличается), как наиболее достоверную по критерию Каггла.
Можно также просто не учитывать малоинформативные признаки.
В перспективе Дима сможет реализовать эти подходы прямо при формализации предметной области, т.е. еще на этапе формирования справочников классов и признаков. Я тоже хочу это сделать, но у меня это будет работать только на не очень больших выборках. Это и есть суть того, что я хотел рассказать Диме по Скайпу. Но на словах я бы еще привел наглядные примеры того, как это работает.