- 
                Notifications
    You must be signed in to change notification settings 
- Fork 44
Description
Это важно для коротких тектов (Twitter LDA), для сегментации документов, суммаризации и именования тем.  Кажется, для этого всё готово: можно сохранять естественный порядок слов и границы предложений.  Но на уровне ядра пока нет механизма, чтобы вычислить усреднённый p(t|d,s) предложения s и использовать его для обновления n_wt всех слов предложения.
Саша,насколько сложно на уровне ядра реализовать эту идею?
Как объединить несколько реализаций прохода документа?
Ведь кроме стандартной схемы пословного вычисления p(t|d,w) у нас теперь появляется вычисление аналогичных распределений над темами для пар слов, для скользящего окна, для фиксированного окна в виде отдельных предложений или даже абзацев.
Если в этом месте мы увеличим гибкость моделирования, то, несомненно, это будет важный шаг к более интересным и "более лингвистичным" приложениям.