๐Paper Review
[paper reivew] A dirichlet multinomial mixture model-based approach for short text clustering
date
Mar 2, 2023
slug
dmmm
author
status
Public
tags
paper
DeepLearning
summary
type
Post
thumbnail
category
๐Paper Review
updatedAt
Sep 6, 2024 01:52 PM
IntroductionAPPROACHMovie Group ProcessDirichlet Multinomial MixtureGibbs Sampling for DMMEXPERIMENTAL STUDYComparison of clustering models
Introduction
short text clustering์ sparsity ploblem์ ๊ฐ์ง๋ค. ๋๋ถ๋ถ์ ๋จ์ด๋ค์ ๊ฐ short text์์ ํ๋ฒ๋ง ๋ฐ์ํ๋ค. TF-IDF ๊ฐ์ ๋ฐฉ๋ฒ๋ก ์ ์ด๋ฌํ short text์ ํจ๊ณผ์ ์ด์ง ๋ชปํจ. ๋ํ Vector space model์ ์ฌ์ฉํ ๊ฒฝ์ฐ sparseํ๊ณ high dimensinalํ vector๋ฅผ ๋ค๋ค์ผํ๋ค๋ ๋ฌธ์ ๊ฐ ์๊น.
ย
collapsed Gibbs Sampling algorithm for the Dirichlet Multinomial Mixture model ์ ์.
๋ํ, ๊ฐ ๋ฌธ์๋ค์ ํ์, ํ์๋ค์ด ๋ณธ ์ํ๋ ๋จ์ด์ ๋น์ ํ์ฌ GSDMM ๊ณผ์ ์ ์ค๋ช
ํ๋ Movie Group Process ์ ์
short text clustering ๋ฌธ์ ๋ฅผ ๋น์ทํ ๊ด์ฌ์ฌ๋ฅผ ๊ณต์ ํ๋ ๊ทธ๋ฃน์ ๋ง๋ค๊ธฐ ์ํด ํ์๋ค์ clustering ํ๋ ๋ฌธ์ ์ ๋น์ ํ ์ ์๋ค.
ย
๋ณธ ๋
ผ๋ฌธ์ contribution์ ๋ค์๊ณผ ๊ฐ๋ค
1) short text clustering์ Dirichlet Multinomial Mixture (DMM)์ ์ ์ฉํ๋ ์ฒซ๋ฒ์งธ ์๋์ด๋ค. sparse ad high dimensinal problem์ ๋ค๋ฃจ๋ ๊ฒ์ ๊ฐ๋ฅํ๊ฒ ํจ.
2) DMM์ ์ํ collapsed Gibbs Sampling algorithm ์ ์. cluster ๊ฒฐ๊ณผ์ completness์ homoginity ์ฌ์ด์ ์ข์ ๋ฐธ๋ฐ์ค๋ฅผ ์ ์งํ๋ฉฐ cluster ๊ฐ์๋ฅผ ์๋์ผ๋ก ์ถ๋ก ํ ์ ์์ผ๋ฉฐ ๋น ๋ฅผ๊ฒ ์๋ ดํจ.
3) GSDMM์ ์ดํด๋ฅผ ๋๊ธฐ ์ํ Movie Group Process (MGP) ์ ์.
ย
APPROACH
Movie Group Process
์ํ ํ ๋ก ์์
์ ๋น์ ํ์ฌ GSDMM ๊ณผ์ ์ค๋ช
. ๋น์ทํ ์ํ๋ฅผ ๋ณธ ํ์๋ค์ ๊ฐ์ ๊ทธ๋ฃน์ ๋๋๊ณ ์ํจ. ๊ฐ ํ์์ ๊ทธ ํ์์ด ์์ฑํ ์์ฒญ ์ํ ๋ชฉ๋ก์ ๊ฐ์ง๊ณ ์๋ค. ์ต์ข
๋ชฉ์ ์ ๊ฐ์ ๊ทธ๋ฃน์ ํ์๋ค์ ๋น์ทํ ์ํ ๋ฆฌ์คํธ๋ฅผ, ๋ค๋ฅธ ๊ทธ๋ฃน์ ํ์๋ค์ ๋ค๋ฅธ ์ํ ๋ฆฌ์คํธ๋ฅผ ๊ฐ์ง๋๋ก clustering ํ๋ ๊ฒ.
์ด๋ input์ D๋ช
์ ํ์๋ค(document)์ด๊ณ ๊ฐ ํ์์ ์ํ ๋ฆฌ์คํธ(document์ ๋จ์ด)๋ก representation๋จ. ๋ชจ๋ ํ์์ด ์์ฑํ ์ด ์ํ(words)์ ๊ฐ์๋ฅผ V๋ผ๊ณ ํ๋ค๋ฉด short text์ sparse characteristic์ ์ํด ๊ฐ short text์ ๋จ์ด ๊ฐ์(L)๋ ์์ง๋ง(often less than ) V๋ ๋งค์ฐ ํฌ๋ค.(often larger than )
(K-means์ ๊ฐ์ clustering ๋ฐฉ๋ฒ์ ๊ฐ documnet๋ฅผ V ์ฐจ์์ vector๋ก ํํํ๋ค. ๋ฐ๋ผ์ document์ ๋จ์ด ๊ฐ์๊ฐ ์ ์์๋ ๋ถ๊ตฌํ๊ณ V ๊ธธ์ด์ vector๋ก ํํํ๊ธฐ ๋๋ฌธ์ ๋์ ์๊ฐ ๋ฐ ๊ณต๊ฐ ๋ณต์ก๋๋ฅผ ๊ฐ์ง ๋ฟ๋ง ์๋๋ผ high-dimensional problem ๋ฐ์.)
ํฐ ์๋น์์ ์ฐ์ ํ์๋ค์ randomํ๊ฒ ๊ฐ์ table์ ์ํ ํ ๋ค์ ํ์๋ค์๊ฒ ๋ค์ ๋ฃฐ์ ๋ฐ๋ผ ์ฐจ๋ก๋ก table์ ์ ํํ๋๋ก ํ๋ค.
1) ๋ ๋ง์ ํ์์ด ์๋ table์ ์ ํํด์ผํ๊ณ
2) ๋น์ทํ ์ํ ๋ฆฌ์คํธ๋ฅผ ๊ณต์ ํ๊ณ ์๋ table์ ์ ํํด์ผํ๋ค.
์ด ๊ณผ์ ์ ๋ฐ๋ณตํ๋ฉด ์ด๋ค table์ ์ธ์์ด ์ฆ๊ฐํ๊ณ ์ด๋ค table์ ์ธ์์ด ์ ์ ๊ฐ์ํ ๊ฒ์ด๋ฉฐ ๊ฐ table์ ํ์๋ค์ ๋น์ทํ ์ํ ๋ฆฌ์คํธ๋ฅผ ๊ณต์ ํ ๊ฒ์ด๋ค.
rule1์ clustering ๊ฒฐ๊ณผ์ ๋์ comletness ์ด๋์ด๋. completness๋ ground true group์ ๋ชจ๋ ๋ฉค๋ฒ๋ค์ด ๊ฐ์ cluster์ ํ ๋น๋์ด์ผํ๋ค๋ ๊ฒ์ ์๋ฏธ. rule1์ ์ธ๊ธฐ์๋ table์ ๋ ์ธ๊ธฐ ์๋๋ก ํ๋ ๊ฒฝํฅ์ ๋ง๋ค๊ธฐ ๋๋ฌธ์ ground true group์ ํ์๋ค์ด ์ค์ ๋ก ๊ฐ์ cluster์ ๋ค์ด๊ฐ๋๋ก ํ ๊ฐ๋ฅ์ฑ์ ๋์ธ๋ค.
rule2๋ clustering ๊ฒฐ๊ณผ์ ๋์ homogeneity ์ด๋์ด๋. homogeneity๋ ๊ฐ cluster๊ฐ ํ๋์ ground true group์ member๋ค์ด ํฌํจ๋์ด์ผ ํ๋ค๋ ๊ฒ์ ์๋ฏธ.
์ด๋ฌํ MGP๋ GSDMM์ collapsed gibbs sampling ์๊ณ ๋ฆฌ์ฆ๊ณผ ๊ฐ๋ค.
Dirichlet Multinomial Mixture
DMM์ ๋ฌธ์์ ๋ํ ํ๋ฅ ์ ์์ฑ ๋ชจ๋ธ.
๋ฌธ์ d๋ฅผ ์์ฑํ ๋ DMM์ ์ฒซ๋ฒ์งธ๋ก mixture weight์ ๋ธ mixture component(cluster) k๋ฅผ ์ ํํ๋ค. ๋ฌธ์ ๋ ๋ถํฌ ๋ก๋ถํฐ ์ ํ๋ mixture component์ ์ํด ์์ฑ๋จ.
๋ฐ๋ผ์ ๋ฌธ์ ์ likelihood๋
์ด์ ์ ๋ฅผ ์ด๋ป๊ฒ ์ ์ํ ๊ฒ์ธ๊ฐ์ ๋ํ ๋ฌธ์ ๊ฐ ๋จ. DMM์ ๋ฌธ์ ์์ ๋จ์ด๋ค์ด ๋
๋ฆฝ์ ์ผ๋ก ์์ฑ๋๊ณ ๋จ์ด์ ํ๋ฅ ์ ๋ฌธ์ ๋ด์ ๋จ์ด์ ์์น์ ๋
๋ฆฝ์ ์ด๋ผ๊ณ ๊ฐ์ ํ๋ค. ๋ฐ๋ผ์ cluster ์ ์ํด ๋ฌธ์ ๊ฐ ์์ฑ๋ ํ๋ฅ ์ ๋ค์๊ณผ ๊ฐ๋ค.
๊ฐ mixture component๋ multinomial distribution์ด๋ผ๊ณ ๊ฐ์ .
๊ฐ
๊ฐ mixture component์ prior๊ฐ Dirichlet distribution์ด๋ผ ๊ฐ์
๋ํ mixture component์ weight๊ฐ multinomial distribution
์ ์ํด ๋ฝํ๋ค๊ณ ๊ฐ์ .
์ด multinomial distribution์ prior๋ ๋๋ฆฌํด๋ ๋ถํฌ
Gibbs Sampling for DMM
input์ธ ๋ฌธ์์ ํ์ดํผ ํ๋ผ๋ฏธํฐ , ๊ฐ ์ฃผ์ด์ก์ ๋ inference ์ด ๋ ๋ ์ ์ถฉ๋ถํต๊ณ๋์ด๋ฏ๋ก
๋ฅผ inferenceํ๋ ๊ฒ๊ณผ ๊ฐ๋ค.
์๊ณ ๋ฆฌ์ฆ์ ์ฒซ๋ฒ์งธ for๋ฌธ์ randomization๊ณผ์ . ๋ฌธ์ ๋ง๋ค ๋ถํฌ์ ๋ฐ๋ผ randomํ๊ฒ ํด๋ฌ์คํฐ ํ ๋น ํ ํด๋น ๊ฐ๋ค ์
๋ฐ์ดํธ.
๋๋ฒ์งธ for๋ฌธ์ gibbs sampling ๊ณผ์ .
๋ค์๊ณผ ๊ฐ์ ํ๋ฅ ์ ๋ฐ๋ผ sampling๋ ํด๋ฌ์คํฐ๋ฅผ ํ ๋น ํ ํด๋น ๊ฐ ์
๋ฐ์ดํธํ๋ฉฐ ์๋ ดํ ๋๊น์ง ๋๋ ํน์ iteration๊น์ง ๋ฐ๋ณตํ๋ค.
EXPERIMENTAL STUDY
Comparison of clustering models
GSDMM๊ณผ ๋ค๋ฅธ ํด๋ฌ์คํฐ๋ง ๋ฐฉ๋ฒ๋ก ๋ค ์ฑ๋ฅ ๋น๊ต.
GSDMM์ด ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ ๋ณด์ด๋ ๊ฒ์ ํ์ธ.
ย
ย