Skip to content

Online алгоритм, или Ещё более большие данные #33

@ofrei

Description

@ofrei

Тенденция такова, что нам придётся работать на всё больших данных и на динамически пополняемых коллекциях. Все случаи, когда нам дали готовую коллекцию -- это история про научное исследование, пилотный проект или пресейл. В реальных приложениях мы строим первую модель именно так, но потом она начинает пополняться порциями. Это важный мессадж: все реальные коллекции растут... если Ваша коллекция не растёт, значет Вы пока что играете в бирюльки. BigARTM к этому неплохо подготовлен, но по-настоящему мы с этим ещё не сталкивались.

Наиболее естестественным представляется такой подход:

  • стартовую версию модели строить оффлайновым алгоритмом по коллекции настолько большой, насколько это возможно,
  • динамически поступающие данные тематизировать порциями при фиксированной матрице Фи,
  • изредка прогонять несколько итераций по последним поступившим порциям и слегка обновлять Фи,
  • ещё реже делать освежающую итерацию по всей коллекции.

Кажется, что такой смешаный онлайн-оффлайн режим можно протестировать и без изменений в ядре.
Кроме этого нужно окончательно разобраться с чистым онлайн алгоритмом, по которому все еще есть много нерешенных проблем.
Эти попытки надо обязательно продолжать, иначе мы сильно упираемся в длительность экспериментов в каждом проекте.

Будет ли смешаный онлайн-оффлайн алгоритм строить модели так же хорошо, как оффлайновый и так же быстро, как онлайновый?

Metadata

Metadata

Assignees

Labels

Type

No type

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions