- 
                Notifications
    You must be signed in to change notification settings 
- Fork 44
Description
Тенденция такова, что нам придётся работать на всё больших данных и на динамически пополняемых коллекциях. Все случаи, когда нам дали готовую коллекцию -- это история про научное исследование, пилотный проект или пресейл. В реальных приложениях мы строим первую модель именно так, но потом она начинает пополняться порциями. Это важный мессадж: все реальные коллекции растут... если Ваша коллекция не растёт, значет Вы пока что играете в бирюльки. BigARTM к этому неплохо подготовлен, но по-настоящему мы с этим ещё не сталкивались.
Наиболее естестественным представляется такой подход:
- стартовую версию модели строить оффлайновым алгоритмом по коллекции настолько большой, насколько это возможно,
- динамически поступающие данные тематизировать порциями при фиксированной матрице Фи,
- изредка прогонять несколько итераций по последним поступившим порциям и слегка обновлять Фи,
- ещё реже делать освежающую итерацию по всей коллекции.
Кажется, что такой смешаный онлайн-оффлайн режим можно протестировать и без изменений в ядре.
Кроме этого нужно окончательно разобраться с чистым онлайн алгоритмом, по которому все еще есть много нерешенных проблем.
Эти попытки надо обязательно продолжать, иначе мы сильно упираемся в длительность экспериментов в каждом проекте.
Будет ли смешаный онлайн-оффлайн алгоритм строить модели так же хорошо, как оффлайновый и так же быстро, как онлайновый?