Тематические модели предложений и сегментации

Это важно для коротких тектов (Twitter LDA), для сегментации документов, суммаризации и именования тем.  Кажется, для этого всё готово: можно сохранять естественный порядок слов и границы предложений.  Но на уровне ядра пока нет механизма, чтобы вычислить усреднённый p(t|d,s) предложения s и использовать его для обновления n_wt всех слов предложения.
**Саша,насколько сложно на уровне ядра реализовать эту идею?**
**Как объединить несколько реализаций прохода документа?**

Ведь кроме стандартной схемы пословного вычисления p(t|d,w) у нас теперь появляется вычисление аналогичных распределений над темами для пар слов, для скользящего окна, для фиксированного окна в виде отдельных предложений или даже абзацев.  
Если в этом месте мы увеличим гибкость моделирования, то, несомненно, это будет важный шаг к более интересным и "более лингвистичным" приложениям.   


Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Тематические модели предложений и сегментации #40

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Тематические модели предложений и сегментации #40

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions