Online алгоритм, или Ещё более большие данные

Тенденция такова, что нам придётся работать на всё больших данных и на динамически пополняемых коллекциях. Все случаи, когда нам дали готовую коллекцию -- это история про научное исследование, пилотный проект или пресейл. В реальных приложениях мы строим первую модель именно так, но потом она начинает пополняться порциями. Это важный мессадж: все реальные коллекции растут... если Ваша коллекция не растёт, значет Вы пока что играете в бирюльки. BigARTM к этому неплохо подготовлен, но по-настоящему мы с этим ещё не сталкивались.

Наиболее естестественным представляется такой подход:
- стартовую версию модели строить оффлайновым алгоритмом по коллекции настолько большой, насколько это возможно,  
- динамически поступающие данные тематизировать порциями при фиксированной матрице Фи,
- изредка прогонять несколько итераций по последним поступившим порциям и слегка обновлять Фи,
- ещё реже делать освежающую итерацию по всей коллекции.

Кажется, что такой смешаный онлайн-оффлайн режим можно протестировать и без изменений в ядре.
Кроме этого нужно окончательно разобраться с чистым онлайн алгоритмом, по которому все еще есть много нерешенных проблем.
Эти попытки надо обязательно продолжать, иначе мы сильно упираемся в длительность экспериментов в каждом проекте.

**Будет ли смешаный онлайн-оффлайн алгоритм строить модели так же хорошо, как оффлайновый и так же быстро, как онлайновый?**


Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Online алгоритм, или Ещё более большие данные #33

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Online алгоритм, или Ещё более большие данные #33

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions