Skip to content

Тематические модели предложений и сегментации #40

@ofrei

Description

@ofrei

Это важно для коротких тектов (Twitter LDA), для сегментации документов, суммаризации и именования тем. Кажется, для этого всё готово: можно сохранять естественный порядок слов и границы предложений. Но на уровне ядра пока нет механизма, чтобы вычислить усреднённый p(t|d,s) предложения s и использовать его для обновления n_wt всех слов предложения.
Саша,насколько сложно на уровне ядра реализовать эту идею?
Как объединить несколько реализаций прохода документа?

Ведь кроме стандартной схемы пословного вычисления p(t|d,w) у нас теперь появляется вычисление аналогичных распределений над темами для пар слов, для скользящего окна, для фиксированного окна в виде отдельных предложений или даже абзацев.
Если в этом месте мы увеличим гибкость моделирования, то, несомненно, это будет важный шаг к более интересным и "более лингвистичным" приложениям.

Metadata

Metadata

Labels

Type

No type

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions