ํ๋กค๋ก๊ทธ: ๊ฐ์ธ์ ๋ณด ๋ณดํธ๋ ์ ํ์ด ์๋ ํ์๋ค
Tech
Feb 12, 2026
๋ฐ์ผํ๋ก '๋ฐ์ดํฐ์ ์๋'์ ๋๋ค. ์ต๊ทผ ๊ธฐ์ ๋ค์ ๋ฐฉ๋ํ ๋น์ ํ ํ ์คํธ ๋ฐ์ดํฐ๋ฅผ ์์งํ์ฌ ์๋น์ค ๊ฐ์ , ์ฌ์ฉ์ ํ๋ ๋ถ์, ์๋ํ ๋ฑ ๋ค์ํ ๊ฐ์น๋ฅผ ์ฐฝ์ถํ๊ณ ์์ต๋๋ค.
ํ์ง๋ง ์ด๋ฌํ ๋ฐ์ดํฐ์ ํ์ ์์๋ ์ด๋ฆ, ์ฃผ๋ฏผ๋ฑ๋ก๋ฒํธ, ๊ณ์ข๋ฒํธ, ์์ธ ์ฃผ์ ๋ฑ ๋ฏผ๊ฐํ ๊ฐ์ธ์ ๋ณด(PII, Personally Identifiable Information)๊ฐ ํํธํ๋์ด ์์ฌ ์๋ค๋ ์น๋ช ์ ์ธ ๋ฆฌ์คํฌ๊ฐ ๋์ฌ๋ฆฌ๊ณ ์์ต๋๋ค.
๋ฌธ์ ๋ ์ด๋ฌํ ์ ๋ณด๋ค์ด ๋ณ๋์ ๋ณดํธ ์ฅ์น ์์ด ์์คํ ์ ๋ ธ์ถ๋๊ฑฐ๋ ์ฒ๋ฆฌ๋ ๋ ๋ฐ์ํฉ๋๋ค. ์ค์ ๋ก 2025๋ ํ ํด์๋ง SKํ ๋ ์ฝค(2,324๋ง ๋ช ), ๋กฏ๋ฐ์นด๋(297๋ง ๋ช ), ์ฟ ํก(3,370๋ง ๋ช ) ๋ฑ ๊ตญ๋ด ์ ์ ๊ธฐ์ ๋ค์์ ๋๊ท๋ชจ ๊ฐ์ธ์ ๋ณด ์ ์ถ ์ฌ๊ณ ๊ฐ ์๋ฐ๋ผ ๋ฐ์ํ์ต๋๋ค. ๋ํ๊ณผ ๋ณ์ ๋ฑ ๊ณต๊ณต๊ธฐ๊ด์ ๋ณด์ ์ฌ๊ณ ๊น์ง ๋ํด์ง๋ฉฐ, ๊ฐ์ธ์ ๋ณด ๋ณดํธ์ ๋ํ ์ฌํ์ ์๊ตฌ์ ๋ฒ์ ๊ท์ ๋ ๊ทธ ์ด๋ ๋๋ณด๋ค ๊ฐ๋ ฅํด์ง๊ณ ์์ต๋๋ค.
์ด์ ๋ ์ฌ๊ณ ๋ฐ์ ํ์ ๋์ฒ๋ณด๋ค, AI๊ฐ ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ๋ ์ ๊ณผ์ ์์ ๊ฐ์ธ์ ๋ณด๋ฅผ ์์ฒ์ ์ผ๋ก ํ์งํ๊ณ ๋ง์คํนํ๋ ์กฐ์น๋ ํ์์ ๋๋ค. ๋ฐ์ดํฐ ๊ธฐ๋ฐ์ ๋ชจ๋ ์๋น์ค์์ ๊ฐ์ธ์ ๋ณด ๋ณดํธ๋ ๋น์ฆ๋์ค์ ๊ธฐ๋ณธ์ด๋ฉฐ, ํนํ ๊ธ์ต๊ถ์ฒ๋ผ ๋ฏผ๊ฐํ ์ ๋ณด๋ฅผ ๋ค๋ฃจ๋ ๋ถ์ผ์์๋ AI ๋ชจ๋ธ๋ก ์ ์ ๋๋ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ ์ ์๋ณํ๊ณ ๋ง์คํนํ๋ ์ฒด๊ณ๊ฐ ๋ฐ๋์ ๋ท๋ฐ์นจ๋์ด์ผ ํฉ๋๋ค.
๊ธฐ์กด์ ๋จ์ ํค์๋ ๋งค์นญ์ด๋ ์ ๊ท์ ๋ฐฉ๋ฒ์ ๋ฌธ๋งฅ์ ๊ณ ๋ คํ์ง ๋ชปํด ์ ํํ๋ ํจํด๋ง ํ์งํ๋ ํ๊ณ๊ฐ ๋ช ํํ์ต๋๋ค. ๋ฐ๋ฉด, ์ต๊ทผ ๋น์ฝ์ ์ผ๋ก ๋ฐ์ ํ ์์ฐ์ด์ฒ๋ฆฌ ๊ธฐ์ ์ ๋ฌธ์ฅ์ ์๋ฏธ๋ฅผ ์ดํดํ์ฌ "๋ณดํธํด์ผ ํ ์ ๋ณด์ธ์ง"๋ฅผ ์ค์ค๋ก ํ๋จํ๋ ์์ค์ ์ด๋ฅด๋ ์ต๋๋ค. ๋ณธ ํฌ์คํ ์์๋ ์ ๋ ผ์ด ์ด๋ฌํ ๊ธฐ์ ์ ๋ฐฐ๊ฒฝ์ ๋ฐํ์ผ๋ก, BERT-CRF ๊ธฐ๋ฐ์ ๊ฐ์ฒด๋ช ์ธ์ ๋ชจ๋ธ์ ํ์ฉํด ๊ฐ์ธ์ ๋ณด ๋ง์คํน ๋ชจ๋ธ์ ๊ตฌ์ถํ ๊ณผ์ ์ ๊ณต์ ํ๊ณ ์ ํฉ๋๋ค.
๋จ์ํ ๋ชจ๋ธ ์ ์ฉ๊ธฐ๋ฅผ ๋์ด, ์ค๋ฌด ํ๊ฒฝ์์ ๋ง์ฃผํ ๊ณ ๋ฏผ๋ค์ ์ค์ ์ ์ผ๋ก ๋ค๋ฃน๋๋ค.
Zero-base Data Generation: ์ธ๋ถ ๋ฐ์ดํฐ ๋ฐ์ ์ด ๋ถ๊ฐ๋ฅํ ๋ด๋ถ๋ง(On-premise) ํ๊ฒฝ์์ ์ด๋ป๊ฒ ํ์ต ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๋๊ฐ?
Mitigating Class Imbalance: ์ ์ฒด ํ ํฐ์ 90%๊ฐ 'O(Outside)'์ธ ์ํฉ์์ ํฌ์ํ ๊ฐ์ธ์ ๋ณด ํด๋์ค ๋ถ๊ท ํ์ ์ด๋ป๊ฒ ํด๊ฒฐํ๋๊ฐ?
Performance & Efficiency: ์ ๊ทํํ์ ๋๋น ์ผ๋ง๋ ์ ํํ๋ฉฐ, LLM ๋๋น ์ผ๋ง๋ ํจ์จ์ ์ธ๊ฐ?
์์ ํ ๋ฐ์ดํฐ ํ์ฉ์ ์ํ ๊ธฐ์ ์ ์ฌ์ ์ ์ง๊ธ๋ถํฐ ์์ํฉ๋๋ค.
์ด ์ฅ์์๋ ๊ฐ์ธ์ ๋ณด ๋ง์คํน ๋ชจ๋ธ์ ๊ตฌํํ๊ธฐ ์ํ ํต์ฌ ๊ธฐ์ ์ธ ๊ฐ์ฒด๋ช ์ธ์๊ณผ BIO ํ๊น ์ ๊ฐ๋ ์ ์ง์ด๋ณด๊ณ , ๋ฌธ๋งฅ์ ์ดํดํ๋ BERT(Bidirectional Encoder Representations from Transformers)์ ๋ฌธ๋ฒ์ ์ค๋ฅ๋ฅผ ๊ต์ ํ๋ CRF(Conditional Random Field)๊ฐ ์ด๋ป๊ฒ ๊ฒฐํฉ๋์ด ์๋ํ๋์ง ์ ์ฒด์ ์ธ ์ํคํ ์ฒ๋ฅผ ์๊ฐํฉ๋๋ค.
๊ฐ์ฒด๋ช ์ธ์(Named Entity Recognition, NER)์ ๋ฌธ์ฅ ๋ด์์ ํน์ ํ ์๋ฏธ๋ฅผ ๊ฐ๋ ๋จ์ด๋ฅผ ์ฐพ์๋ด๊ณ , ์ด๋ฅผ ์ฌ์ ์ ์ ์๋ ๋ฒ์ฃผ(์ธ๋ฌผ, ์ฅ์, ๋ ์ง ๋ฑ)๋ก ๋ถ๋ฅํ๋ ์์ฐ์ด ์ฒ๋ฆฌ ๊ธฐ์ ์ ๋๋ค. ๊ธ์ต, ์๋ฃ, ๋ฒ๋ฅ ๋ฑ ํน์ ๋๋ฉ์ธ์์๋ ์ผ๋ฐ์ ์ธ ๋ฒ์ฃผ ์ธ์๋ '๊ณ์ข๋ฒํธ', '๊ฐ๋งน์ ๋ช ' ๋ฑ ๋๋ฉ์ธ ํนํ ๊ฐ์ฒด๋ช ์ ์ ์ํ์ฌ ๋ฏผ๊ฐ ์ ๋ณด๋ฅผ ์๋ณํ๋ ๋ฐ ํ์ฉํฉ๋๋ค.

์ด๋ฏธ์ง 1. ๊ฐ์ฒด๋ช ์ธ์(NER)์ ํ์ฉํ ๋ฌธ์ฅ ๋ด ์ฃผ์ ์ ๋ณด ์ถ์ถ ์์. ์ถ์ฒ: ์ ๋ ผ
์๋ฅผ ๋ค์ด, ๋ค์๊ณผ ๊ฐ์ ๊ณ ๊ฐ์ ๋ฌธ์ ๋ด์ญ์ด ์๋ค๊ณ ๊ฐ์ ํด ๋ณด๊ฒ ์ต๋๋ค.
โ๊น์ ๋ ผ ๊ณ ๊ฐ๋, 9์ 17์ผ์ ์คํ๋ฒ ์ค ๊ฐ๋จ์ญ์ ์์ ์ด์ฒ์น ๋ฐฑ ์ ๊ฒฐ์ ๊ฐ ํ์ธ๋ฉ๋๋ค. ๋ณธ์ธ์ด ๊ฒฐ์ ํ ์ฌ๋ก๊ฐ ๋ง์ผ์ญ๋๊น?โ
NER ๋ชจ๋ธ์ ์ด ๋ฌธ์ฅ์ ๋ถ์ํ์ฌ ์๋์ ๊ฐ์ด ์๋ฏธ ์๋ ์ ๋ณด๋ฅผ ์ถ์ถํฉ๋๋ค.
"๊น์ ๋ ผ" โ
[์ด๋ฆ],"์คํ๋ฒ ์ค ๊ฐ๋จ์ญ์ " โ
[๊ฐ๋งน์ ๋ช ],"์ด์ฒ์น ๋ฐฑ ์" โ
[๊ฒฐ์ ๊ธ์ก]
BIO ํ๊ทธ ์ฒด๊ณ: ์ ๋ต์ ์๋ ค์ฃผ๋ ์ฝ์
๋ชจ๋ธ์ด "์คํ๋ฒ ์ค ๊ฐ๋จ์ญ์ "์ด ํ๋์ ๋จ์ด๊ฐ ์๋๋ผ ์ฌ๋ฌ ํ ํฐ(Token)์ผ๋ก ์ด๋ฃจ์ด์ง ๊ธด ๊ฐ์ฒด๋ช ์์ ์๊ฒ ํ๋ ค๋ฉด ์ด๋ป๊ฒ ํด์ผ ํ ๊น์? ์ด๋ ์ฌ์ฉํ๋ ๊ฒ์ด BIO ํ๊น (BIO Tagging)์ ๋๋ค. BIO๋ ์ธ ๊ฐ์ง ํ๊ทธ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค:
B (Begin): ๊ฐ์ฒด๋ช ์ ์์ ํ ํฐ
I (Inside): ๊ฐ์ฒด๋ช ์ ๋ด๋ถ์ ํฌํจ๋ ํ ํฐ
O (Outside): ๊ฐ์ฒด๋ช ์ด ์๋ ์ผ๋ฐ ํ ํฐ

์ด๋ฏธ์ง 2. BIO ํ๊ทธ ์ฒด๊ณ. ์ถ์ฒ: ์ ๋ ผ
์ด์ฒ๋ผ BIO ํ๊ทธ๋ฅผ ์ฌ์ฉํ๋ฉด ๋ชจ๋ธ์ "์ฌ๊ธฐ์๋ถํฐ ์ฌ๊ธฐ๊น์ง๊ฐ ํ๋์ ๊ฐ๋งน์ ๋ช ์ด๋ค"๋ผ๋ ๊ฒฝ๊ณ ์ ๋ณด๋ฅผ ๋ช ํํ๊ฒ ํ์ตํ ์ ์์ต๋๋ค.
์ ํฌ๋ ํ๊ตญ์ด ๋ฌธ๋งฅ ์ดํด์ ํนํ๋ KcBERT(Korean comments BERT)๋ฅผ ๊ธฐ๋ฐ์ผ๋ก, ์ํ์ค(์์)์ ์ผ๊ด์ฑ์ ์ก์์ฃผ๋ CRF ๋ ์ด์ด๋ฅผ ๊ฒฐํฉํ ์ํคํ ์ฒ๋ฅผ ์ฑํํ์ต๋๋ค.
Why BERT? (๋ฌธ๋งฅ์ ์ฝ๋ ๋)
BERT๋ ๋๊ท๋ชจ ํ ์คํธ๋ก ์ฌ์ ํ์ต(Pre-training)๋ ์ธ์ด ๋ชจ๋ธ์ ๋๋ค. ์๋ฐฉํฅ(Bidirectional)์ผ๋ก ๋ฌธ๋งฅ์ ํ์ ํ๊ธฐ ๋๋ฌธ์, ๊ฐ์ ๋จ์ด๋ผ๋ ์ฃผ๋ณ ๋จ์ด์ ๋ฐ๋ผ ์๋ฏธ๊ฐ ๋ฌ๋ผ์ง๋ ๊ฒ์ ๊ตฌ๋ถํ ์ ์์ต๋๋ค.
์: "๋ฐฐ" โ ๋จน๋ ๋ฐฐ์ธ์ง, ํ๋ ๋ฐฐ์ธ์ง ๊ตฌ๋ถ
๋ด์ค ๋๊ธ ๋ฑ์ผ๋ก ํ์ต๋์ด ๊ตฌ์ด์ฒด์ ์ ์กฐ์ด์ ๊ฐํ KcBERT๋ฅผ ์ฌ์ฉ
Why CRF? (๋ฌธ๋ฒ์ ์งํค๋ ๊ต์ ์)
BERT๋ง ์ฌ์ฉํด๋ ๊ฐ ํ ํฐ์ ๋ถ๋ฅํ ์ ์์ง๋ง, ํ ๊ฐ์ง ์ฝ์ ์ด ์์ต๋๋ค. ๊ฐ ํ ํฐ์ ๋ ๋ฆฝ์ ์ผ๋ก ์์ธกํ๋ค ๋ณด๋, ๋ฌธ๋งฅ์ ๋ง์ด ์ ๋๋ ํ๊น ์ค์๋ฅผ ํ ๋๊ฐ ์์ต๋๋ค.
BERT์ ์ค์ ์์:
์ด๋ฆ_B๋ค์์ ๋ฌ๊ธ์์ด์ฃผ์_I๊ฐ ์จ๋ค๊ณ ์์ธก. (์ด๋ฆ์ด ์์๋๋๋ฐ ๊ฐ์๊ธฐ ์ฃผ์์ ์ค๊ฐ์ด ๋์ฌ ์๋ ์์)
์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด CRF๋ฅผ ๋ง์ง๋ง ์ธต์ ์ถ๊ฐํ์ต๋๋ค. CRF๋ ํ ํฐ ํ๋ํ๋๋ง ๋ณด๋ ๊ฒ์ด ์๋๋ผ, ์๋ค ํ ํฐ ๊ฐ์ ๊ด๊ณ(Transition Probability)๋ฅผ ํ์ตํฉ๋๋ค.
ํ์ต ๋ด์ฉ: "
์ด๋ฆ_B๋ค์๋์ด๋ฆ_I๊ฐ ์ฌ ํ๋ฅ ์ด ๋๊ณ ,์ฃผ์_I๊ฐ ์ฌ ํ๋ฅ ์ 0์ ๊ฐ๊น๋ค."ํจ๊ณผ: ๋ฌธ์ฅ ์ ์ฒด๋ฅผ ๋ณด์์ ๋ ๊ฐ์ฅ ์์ฐ์ค๋ฝ๊ณ ์ผ๊ด์ฑ ์๋ ํ๊ทธ ์ํ์ค๋ฅผ ์ฐพ์์ค๋๋ค.

์ด๋ฏธ์ง 3. BERT-CRF ๊ธฐ๋ฐ ๊ฐ์ฒด๋ช
์ธ์ ๋ชจ๋ธ์ ์ ์ฒด ์ํคํ
์ฒ ๋ฐ ํ๊น
ํ๋ก์ธ์ค(์ ๋
ผ ์ฌ๊ตฌ์ฑ).
์ถ์ฒ: Cheng, J., et al. [1]
์ต์ข
์ ์ธ ๋ชจ๋ธ์ ๋ฐ์ดํฐ ์ฒ๋ฆฌ ํ๋ฆ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
1. ์
๋ ฅ ๋ฌธ์ฅ์ BERT ํ ํฌ๋์ด์ ๋ก ๋ถ์ ํ ํ, ๊ฐ ํ ํฐ์ ์๋ฒ ๋ฉ ๋ฒกํฐ๋ก ๋ณํํฉ๋๋ค.
2. BERT๋ ์๋ฐฉํฅ ๋ฌธ๋งฅ ์ ๋ณด๋ฅผ ๋ฐ์ํ ํ ํฐ ์๋ฒ ๋ฉ์ ์ถ๋ ฅํฉ๋๋ค.
3. ์ด ์๋ฒ ๋ฉ์ด CRF ๋ ์ด์ด๋ก ์ ๋ฌ๋๋ฉฐ, ์ํ์ค ์ ์ฒด์ ๋ ์ด๋ธ ์กฐํฉ ์ค ๊ฐ์ฅ ๋์ ํ๋ฅ ์ ๊ฐ๋ ์ํ์ค๋ฅผ ์์ธกํฉ๋๋ค.
์ด๋ ๊ฒ ๋ชจ๋ธ ๊ตฌ์กฐ๋ฅผ ์ค๊ณํ์ง๋ง, ๊ณง๋ฐ๋ก ๋๊ด์ ๋ด์ฐฉํ์ต๋๋ค. ๋ฐ๋ก "๋ณด์ ๊ท์ ์ ์ค์ ๊ณ ๊ฐ ๋ฐ์ดํฐ๋ฅผ ํ์ต์ ์ฌ์ฉํ ์ ์๋ค"๋ ์ ์ด์์ต๋๋ค. ๋ชจ๋ธ์ ์ค๋น๋์์ง๋ง, ์ ์ ๊ฐ๋ฅด์น ๊ต๊ณผ์๊ฐ ์๋ ์ํฉ. ์ ํฌ๋ ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ ๋ก๋ฒ ์ด์ค์์ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๋ ์ ๋ต์ ์๋ฆฝํด์ผ ํ์ต๋๋ค.
๊ฐ๋ฐ ๊ณผ์ ์์ ๊ฐ์ฅ ํฐ ์ ์ฝ ์ค ํ๋๋ ์ค์ ๊ธ์ต๊ถ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ ์ ์์๋ค๋ ์ ์ ๋๋ค. ์ค์ ๊ณ ๊ฐ์ฌ์ ์๋น์ค ์ ์ฉ์ ๋ชฉํ๋ก ํ์ง๋ง, ๋ณด์ ์ ์ฑ ์ ๋ด๋ถ ๋ฐ์ดํฐ ์ ๊ทผ์ด ์๊ฒฉํ ์ ํ๋์ด ์์์ต๋๋ค. ๊ฒฐ๊ตญ, ์์ ํ ์ธ๋ถ์์ ์ ๋ก๋ฒ ์ด์ค๋ก ํ์ต ๋ฐ์ดํฐ๋ฅผ ๊ตฌ์ถํด์ผ ํ์ต๋๋ค. ๊ฐ๋ฐ ๊ณผ์ ์์ ๋ง์ฃผํ ์ฌ๋ฌ ๊ณ ๋ฏผ ์ค, ์ด๋ฒ ๊ธ์์๋ ์ ๋ก๋ฒ ์ด์ค ํ๊ฒฝ์์ ๋ฐ์ดํฐ๋ฅผ ์ด๋ป๊ฒ ๊ตฌ์ฑํ๋์ง, ๊ทธ๋ฆฌ๊ณ ํด๋์ค ๋ถ๊ท ํ ๋ฌธ์ ์ ์ด๋ค ๋ฐฉ์์ผ๋ก ์ ๊ทผํ๋์ง๋ฅผ ์ค์ฌ์ผ๋ก ์ดํด๋ณด๊ฒ ์ต๋๋ค.
1) ์ฒซ ๋ฒ์งธ ์๋: LLM์ ํ์ฉํ ๋ฐ์ดํฐ ์์ฑ๊ณผ ํ๊ณ
๋ด๋ถ์ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ ์ ์๋๋ฐ ์ธ๋ถ์์ ์ด๋ป๊ฒ ๋ฐ์ดํฐ๋ฅผ ๊ตฌ์ถํด์ผํ ๊น? ๋ด๋ถ ๋ฐ์ดํฐ๋ฅผ ๋ณผ ์ ์๋ค๋ฉด, ์ธ๋ถ์์ ๊ฐ์ฅ ์ ์ฌํ ๋ฐ์ดํฐ๋ฅผ ๋ง๋ค์ด๋ด์ผ ํ์ต๋๋ค.
๊ฐ์ฅ ๋จผ์ ๋ ์ค๋ฅธ ์ ๊ทผ๋ฒ์ ์ต๊ทผ ๋น์ฝ์ ์ธ ์ฑ๋ฅ ํฅ์์ ์ด๋ฃฌ ๊ฑฐ๋ ์ธ์ด ๋ชจ๋ธ(Large Language Model, LLM)์ ํ์ฉํ๋ ๊ฒ์ด์์ต๋๋ค. LLM์ ๋ฐฉ๋ํ ์ง์์ ํ์ตํ๊ธฐ ๋๋ฌธ์, ์ ์ ํ ํ๋กฌํํธ ์์ง๋์ด๋ง(Prompt Engineering)์ ๊ฑฐ์น๋ฉด ๊ธ์ต๊ถ ์๋ด ์ํฉ์ ๊ฝค ๊ทธ๋ด์ธํ๊ฒ ํ๋ด ๋ผ ์ ์์ ๊ฒ์ด๋ผ ํ๋จํ์ต๋๋ค. ์ ํฌ๋ GPT-5์ ๊ฐ์ ๋ชจ๋ธ์๊ฒ ํ๋ฅด์๋๋ฅผ ๋ถ์ฌํ๊ณ ๋ค์๊ณผ ๊ฐ์ด ์์ฒญํ์ต๋๋ค.
โ๋๋ ์นด๋์ฌ ๊ณ ๊ฐ์ผํฐ์ ๋ฌธ์ํ๋ ๊ณ ๊ฐ์ด์ผ. ์ด์ค ๊ฒฐ์ ๊ฐ ๋ฐ์ํด์ ํ๋ถ์ ์์ฒญํ๋ ์ํฉ์ ์์ฐ์ค๋ฌ์ด ๊ตฌ์ด์ฒด ๋ฌธ์ฅ์ผ๋ก 100๊ฐ ์์ฑํด์ค.โ
์ด๊ธฐ ๊ฒฐ๊ณผ๋ ํ๋ฅญํด ๋ณด์์ต๋๋ค. LLM์ "์ ๊ฐ ์ด์ ๊ฐ๋จ์ญ์์ ๊ฒฐ์ ํ๋๋ฐ ๋ ๋ฒ ๊ธํ ๊ฒ ๊ฐ์์", "์นด๋ ๋ถ์ค ์ ๊ณ ๋ฅผ ํ๋ ค๊ณ ํฉ๋๋ค"์ ๊ฐ์ด ๋ฌธ๋ฒ์ ์ผ๋ก ์๋ฒฝํ๊ณ ์์ฐ์ค๋ฌ์ด ๋ฌธ์ฅ๋ค์ ์์ฑํ์ต๋๋ค. ์นด๋์ฌ๋ ์ฆ๊ถ์ฌ์์ ์ฌ์ฉํ๋ ์ ๋ฌธ ์ฉ์ด(์ ํ ๋งค์ , ํ ๋ถ ์ฒ ํ ๋ฑ)๋ ์ ์ฌ์ ์์ ์ฌ์ฉ๋์ด ์ด๊ธฐ์๋ ์ด ๋ฐ์ดํฐ๋ง์ผ๋ก๋ ์ถฉ๋ถํ ๊ฒ์ด๋ผ ์๊ฐํ์ต๋๋ค.
ํ์ง๋ง, ์ด๋ ๊ฒ ์์ฑ๋ ์์ฒ ๊ฐ์ ๋ฌธ์ฅ์ ๋ถ์ํ๊ณ BERT ๋ชจ๋ธ ํ์ต์ ์๋ํด ๋ณธ ๊ฒฐ๊ณผ, ๋ณธ์ง์ ์ธ ํ๊ณ์ ์ด ๋๋ฌ๋ฌ์ต๋๋ค. ๋ฐ๋ก ํ์ต ๋ฐ์ดํฐ์ ์ ๋ค์์ฑ์ด ๋ถ์กฑํ๋ค๋ ์ ์ด์์ต๋๋ค.
ํจํด์ ๋จ์กฐ๋ก์: LLM์ ํ๋ฅ ์ ์ผ๋ก ๊ฐ์ฅ '๊ทธ๋ด๋ฏํ' ๋จ์ด๋ฅผ ์ ํํ์ฌ ๋ฌธ์ฅ์ ์์ฑํฉ๋๋ค. ๊ทธ๋ฌ๋ค ๋ณด๋ ์์ฑ๋ ๋ฌธ์ฅ๋ค์ด ๋ง์น ๋ชจ๋ฒ ๋ต์์ฒ๋ผ ์ ์ ๋์ด ์๊ณ , ๋ฌธ์ฅ์ ๊ตฌ์กฐ(์ฃผ์ด-๋ชฉ์ ์ด-์์ ์ด)๊ฐ ์ง๋์น๊ฒ ์ผ๊ด๋ ๊ฒฝํฅ์ ๋ณด์์ต๋๋ค.
ํ์ค์ฑ์ ๋ด์ง ๋ชปํ ๋ฐ์ดํฐ: ์ค์ ๊ณ ๊ฐ ์๋ด ํ์ฅ์์๋ '์ ๊ฒฐ์ /์ฆ์์ถ๊ธ', '๋๋ ๋ถ์ค ํด์ ', 'ํ๋ ์ํฅ ์ฌ์ฌ' ๋ฑ ๋ณต์กํ ๋๋ฉ์ธ ์๋๋ฆฌ์ค๊ฐ ์กด์ฌํฉ๋๋ค. ๋ํ ํ๊ฐ ๋ ๊ณ ๊ฐ, ๋ง์ ๋๋ฌ๋ ๊ณ ๊ฐ, ๋น๋ฌธ์ ์ฌ์ฉํ๋ ๊ฒฝ์ฐ, ํน์ "์๋ ๊ทธ๊ฒ ์๋๊ณ , ์ ๋ฒ์ ๋งํ ๊ฑฐ ์์์"์ ๊ฐ์ด ๋ฌธ๋งฅ์ด ์๋ต๋ ๋ํ๋ ๋น๋ฒํฉ๋๋ค. ํ์ง๋ง LLM์ ์ผ๋ฐ์ ์ด๊ณ ํ์ดํ ์ผ์ด์ค์ ํธ์ค๋์ด ๋ฐ์ดํฐ๋ฅผ ์์ฑํ์ต๋๋ค.
BERT์ ๊ฐ์ ์ธ์ฝ๋ ๊ธฐ๋ฐ ๋ชจ๋ธ์ ๋จ์ํ ๋จ์ด๋ฅผ ์ธ์ฐ๋ ๊ฒ์ด ์๋๋ผ, ๋ฌธ์ฅ ๋ด์ ๋ณต์กํ ๋ฌธ๋งฅ(Context)์ ์ดํดํ๊ณ ๊ทธ ์์์ ์ํฐํฐ(Entity)์ ์ญํ ์ ์ถ๋ก ํ๋ ๋ฅ๋ ฅ์ด ํต์ฌ์ ๋๋ค. ํ์ต ๋ฐ์ดํฐ์ ํจํด์ด ๋จ์กฐ๋ก์ฐ๋ฉด ๋ชจ๋ธ์ ์ฌ์ด ํจํด์๋ง ๊ณผ์ ํฉ ๋์ด, ์กฐ๊ธ๋ง ๋ฏ์ ํํ์ด๋ ๋ณต์กํ ๋ฌธ์ฅ์ด ๋ค์ด์๋ ์ฑ๋ฅ์ด ๊ธ๊ฒฉํ ๋จ์ด์ง๋ ๊ฒฐ๊ณผ๋ฅผ ์ด๋ํฉ๋๋ค. ๊ฒฐ๋ก ์ ์ผ๋ก, LLM ๋จ๋ ์์ฑ ๋ฐฉ์์ '์'์ ์ฑ์ธ ์ ์์์ง๋ง, ์ค๋ฌด ํ๊ฒฝ์ ์ปค๋ฒํ ์ ์๋ '์ง(๋ค์์ฑ)'์ ํ๋ณดํ๊ธฐ์๋ ์ญ๋ถ์กฑ์ด์์ต๋๋ค.
2) ๋ํ๊ตฌ: AI Hub ๋ฏผ์ ๋ฐ์ดํฐ์ ์ ํ์ฉํ '์๋๋ฆฌ์ค ์ด์โ
LLM์ด ์ค์ค๋ก ๋ค์ํ ์ํฉ์ ์์ํ๋ ๋ฐ ํ๊ณ๊ฐ ์๋ค๋ฉด, "์ด๋ฏธ ๋ค์ํ ์ํฉ์ด ๋ด๊ฒจ ์๋ ์ค์ ๋ฐ์ดํฐ"๋ฅผ ๊ฐ์ด๋๋ก ์ฃผ๋ฉด ์ด๋จ๊น? ์ด ์ง๋ฌธ์์ ์ถ๋ฐํ์ฌ AI Hub์ '๋ฏผ๊ฐ ๋ฏผ์ ์๋ด LLM ์ฌ์ ํ์ต ๋ฐ Instruction Tuning ๋ฐ์ดํฐ[2]'๋ฅผ ์๋ ๋ฐ์ดํฐ(Seed Data)๋ก ํ์ฉํ๊ธฐ๋ก ๊ฒฐ์ ํ์ต๋๋ค.
์ด ๋ฐ์ดํฐ์ ์ ์ ํํ ์ด์ ๋ ๋ช ํํ์ต๋๋ค. ์ ํฌ๊ฐ ์ง์ "์ด์ค ๊ฒฐ์ ์ํฉ์ ๋ง๋ค์ด์ค"๋ผ๊ณ ์ฃผ์ ๋ฅผ ํ์ ํ์ง ์์๋, ํด๋น ๋ฐ์ดํฐ์ ์์๋ ์ด๋ฏธ ์นด๋์ฌ์์ ๋ฐ์ํ ์ ์๋ 40๊ฑด ์ด์์ ์ค์ ๋ฏผ์ ์๋๋ฆฌ์ค๊ฐ ํฌํจ๋์ด ์์๊ธฐ ๋๋ฌธ์ ๋๋ค. ์ต๊ทผ์ ๊ตฌ์ถํ์ฌ ์ด์ฉ๋ด์ญ ์๋ด, ์ ๊ฒฐ์ /์ฆ์์ถ๊ธ, ๋๋/๋ถ์ค ์ ์ฒญ/ํด์ , ํ๋์ํฅ ์ ์/์ฒ๋ฆฌ, ๊ฒฐ์ ๋๊ธ ์๋ด ๋ฑ ์์๋ง์ผ๋ก๋ ๋ ์ฌ๋ฆฌ๊ธฐ ํ๋ ๋ํ ์ผํ ์ ๋ฌด ์ ํ๋ค์ด ๋ฐ์ดํฐ์ ์ ๋ น์ ์์์ต๋๋ค.
์ ํฌ๋ ๋ฐ์ดํฐ ๊ตฌ์ถ ํ์ดํ๋ผ์ธ์ ๋ค์๊ณผ ๊ฐ์ด ๊ณ ๋ํํ์ต๋๋ค.
์๋ ๋ฐ์ดํฐ ์ํ๋ง: AI Hub ๋ฐ์ดํฐ์ ์์ ๋ฌด์์๋ก ๋ฐ์ดํฐ ์ํ์ ์ถ์ถํฉ๋๋ค.
LLM Rewrite: ์ถ์ถํ ์ํ์ LLM์๊ฒ ํ๋กฌํํธ๋ก ์ ๊ณตํ๋ฉฐ, ์ด๋ฅผ ์ํ๋ ์ฉ๋์ ๋ง๊ฒ ๋ณํํ๊ฑฐ๋ ๋ฌธ์ฒด๋ฅผ ๋ค์ํ๊ฒ ๋ฐ๊พธ๋๋ก ์ง์ํฉ๋๋ค.
๋ค์์ฑ ํ๋ณด: ์๋ณธ ๋ฐ์ดํฐ์ ๋ค์ํ ์ ๋ฌด ์ ํ์ ํตํด ๋ฐ์ดํฐ์ ๋ค์์ฑ์ ํ๋ณดํ์ฌ ํ์ค์ ์ธ ์๋๋ฆฌ์ค๋ฅผ ๋ น์ฌ๋ผ ์ ์์์ต๋๋ค.
์ด ๋ฐฉ์์ BERT ๋ชจ๋ธ ํ์ต์ ๊ฒฐ์ ์ ์ธ ์ํฅ์ ๋ฏธ์ณค์ต๋๋ค. ๋ชจ๋ธ์ ์ด์ ๋จ์ํ ํจํด์ด ์๋๋ผ, "๊ณ ๊ฐ์ด ๋ถ๋ง์ ํ์ถํ๋ ๋ฌธ๋งฅ", "์ ๋ณด๋ฅผ ํ์ธํ๋ ค๋ ์๋ฌธ์ ๋ฌธ๋งฅ" ๋ฑ ๋ฌธ์ฅ์ ์๋์ ํ๋ฆ์ ํ์ตํ๊ธฐ ์์ํ์ต๋๋ค.
3) ๋จ๊ฒจ์ง ๊ณผ์ : ๋น์๋ณํ๋ ๊ณต๋ฐฑ๊ณผ ํด๋์ค ๋ถ๊ท ํ
์๋ ๋ฐ์ดํฐ๋ฅผ ํตํด ์๋๋ฆฌ์ค์ ๋ค์์ฑ ๋ฌธ์ ๋ ํด๊ฒฐํ์ง๋ง, ์ฌ์ ํ ๋์ด์ผ ํ ์ฐ์ด ๋จ์ ์์์ต๋๋ค.
์ฒซ์งธ, ๋น์๋ณํ ๋ฌธ์ ์ ๋๋ค. AI Hub ๋ฐ์ดํฐ๋ ๊ฐ์ธ์ ๋ณด ๋ณดํธ๋ฅผ ์ํด ์ด๋ฆ, ์ฃผ์, ์ ํ๋ฒํธ ๋ฑ์ด ๋ชจ๋ โฒ์ ๊ฐ์ด ๋ง์คํน ์ฒ๋ฆฌ๋ ์ํ์์ต๋๋ค. ๋ชจ๋ธ์ ํ์ต์ํค๊ธฐ ์ํด์๋ ์ด ์๋ฆฌ์ ์ค์ ์ ์ ์ฌํ ๊ฐ์ง ๊ฐ์ธ์ ๋ณด๋ฅผ ์ฑ์ ๋ฃ๊ณ , ์ ํํ ์ ๋ต ๋ผ๋ฒจ์ ๋ฌ์์ฃผ๋ '์ฌ์๋ณํ(Re-identification)' ๊ณผ์ ์ด ํ์ํ์ต๋๋ค.
๋์งธ, ํด๋์ค ๋ถ๊ท ํ(Class Imbalance) ๋ฌธ์ ์ ๋๋ค. ์๋ ๋ฐ์ดํฐ๋ฅผ ๋ถ์ํด ๋ณด๋, '์ด๋ฆโ, '๋ฉ์ผ์ฃผ์' ๊ฐ์ ์ผ๋ฐ์ ์ธ ๊ฐ์ฒด๋ช ์ ๊ฑฐ์ ๋ชจ๋ ๋ฌธ์ฅ์ ๋ฑ์ฅํ๋ ๋ฐ๋ฉด, '๊ฐ๋งน์ ๋ช ', '๊ฒฐ์ ๊ธ์ก'๊ณผ ๊ฐ์ ํต์ฌ ๊ฐ์ธ ์ ๋ณด๋ ๋ฑ์ฅํ์ง ์์์ต๋๋ค. NER ๋ชจ๋ธ์ ๋ฐ์ดํฐ๊ฐ ๋ง์ ํด๋์ค๋ ์ ๋ง์ถ์ง๋ง, ๋ฐ์ดํฐ๊ฐ ์ ์ ํฌ๊ท ํด๋์ค๋ ๋ฌด์ํ๊ฑฐ๋ โOโ ํ๊ทธ๋ก ์์ธกํด๋ฒ๋ฆฌ๋ ๊ฒฝํฅ์ด ์์ต๋๋ค. ์ ํฌ๊ฐ ๋ชฉํ๋ก ํ๋ ๊ฒ์ ๋ชจ๋ ๊ฐ์ธ์ ๋ณด๋ฅผ ๋น ์ง์์ด ํ์งํ๋ ๊ฐ๊ฑดํ(Robust) ๋ชจ๋ธ์ด์๊ธฐ์, ํน์ ํด๋์ค์ ํธํฅ๋์ง ์๊ณ ๋ชจ๋ ํด๋์ค๋ฅผ ๊ณจ๊ณ ๋ฃจ ํ์ตํ ์ ์๋ ์ ๋ต์ด ์ ์คํ์ต๋๋ค.
๋จ์ํ ๋น ์นธ์ ์ฑ์ฐ๋ ๊ฒ์ ๋์ด, ์ด๋ป๊ฒ ํ๋ฉด ํฌ๊ทํ ํด๋์ค(Rare Class)์ ๋ฐ์ดํฐ๋ฅผ ์ฆ๊ฐํ๊ณ ๋ชจ๋ธ์ ํ์ต ๊ท ํ์ ๋ง์ถ ์ ์์๋์ง, ๋ฐ์ดํฐ ๋ฐธ๋ฐ์ฑ(Data Balancing) ์ ๋ต์ ๋ํด์๋ ๋ค์ ์ฑํฐ์์ ๊ตฌ์ฒด์ ์ผ๋ก ๋ค๋ฃจ๊ฒ ์ต๋๋ค.
์์ ๋ฐ์ดํฐ๋ฅผ ์์ฑํ์ง๋ง, ๋จ์ํ ๋ฐ์ดํฐ์ ์๋ง ๋๋ฆฐ๋ค๊ณ ๋ฅ์ฌ๋ ์๋์์ต๋๋ค. NER ํ์คํฌ์ ์ฑ๋ฅ์ ๋จ์ด๋จ๋ฆฌ๋ ๊ณ ์ง์ ์ธ ๋ฌธ์ , ๋ฐ๋ก Class Imbalance๊ฐ ๊ธฐ๋ค๋ฆฌ๊ณ ์์๊ธฐ ๋๋ฌธ์ ๋๋ค. ์ ํฌ๋ ์ด ๋ฌธ์ ๋ฅผ ํฌ๊ฒ ๋ ๊ฐ์ง ๊ด์ ์์ ๋ถ์ํ๊ณ ํด๊ฒฐ์ฑ ์ ์ค๊ณํ์ต๋๋ค.
1) ๋ฌธ์ ์ ๋ณธ์ง: ์ ๋ชจ๋ธ์ ์์ ํด๋์ค๋ฅผ ์ธ๋ฉดํ๋๊ฐ?
์ฒซ์งธ, ํ๊ฒ ํด๋์ค ๊ฐ์ ๊ทน์ฌํ ๋ถ๊ท ํ(Inter-Class Imbalance)์ ๋๋ค. ์ด์์ ์ธ ํ์ต ํ๊ฒฝ์ ์ด๋ฆ, ๊ฐ๋งน์ ๋ช , ์์ธ์ฃผ์ ๋ฑ ๋ชจ๋ ํ๊ฒ ํด๋์ค๊ฐ ๊ท ๋ฑํ๊ฒ ๋ถํฌํ๋ ๊ฒ์ ๋๋ค. ํ์ง๋ง ํ์ค ๋ฐ์ดํฐ๋ '์ด๋ฆ'์ด๋ '๋ฉ์ผ์ฃผ์'๋ ๋น๋ฒํ๊ฒ ๋ฑ์ฅํ๋ ๋ฐ๋ฉด, '๊ฐ๋งน์ ๋ช '์ด๋ '๊ฒฐ์ ๊ธ์ก'๊ณผ ๊ฐ์ ๋ฏผ๊ฐ ์ ๋ณด๋ ๋งค์ฐ ํฌ์ํ๊ฒ ๋ฑ์ฅํฉ๋๋ค. ๋ฅ๋ฌ๋ ๋ชจ๋ธ์ ๊ธฐ๋ณธ์ ์ผ๋ก ์ ์ฒด ์์ค(Global Loss)์ ์ต์ํํ๋ ๋ฐฉํฅ์ผ๋ก ์ต์ ํ๋ฉ๋๋ค. ๋ง์ฝ ํ์ต ๋ฐ์ดํฐ์ '์ด๋ฆ'์ด 1,000๊ฐ, '์์ธ์ฃผ์'๊ฐ 10๊ฐ๋ฟ์ด๋ผ๋ฉด, ๋ชจ๋ธ์ ์์ธ์ฃผ์ 10๊ฐ๋ฅผ ๋ชจ๋ ํ๋ฆฌ๋๋ผ๋ ๋ค์์ธ ์ด๋ฆ 1,000๊ฐ๋ฅผ ๋ง์ถ๋ ์ชฝ์ผ๋ก ๊ฐ์ค์น๋ฅผ ์ ๋ฐ์ดํธํฉ๋๋ค. ๊ฒฐ๊ณผ์ ์ผ๋ก ๋ชจ๋ธ์ ๋ฐ์ดํฐ๊ฐ ํ๋ถํ ํด๋์ค์ ๊ณผ์ ํฉ(Overfitting)๋๊ณ , ์ ์ ๋ณด์์ ๋ ์ค์ํ ์ ์๋ ํฌ์ ๊ฐ์ธ์ ๋ณด๋ ๋ ธ์ด์ฆ๋ก ์ทจ๊ธํ์ฌ ํ์ตํ์ง ๋ชปํ๋ ํธํฅ์ด ๋ฐ์ํฉ๋๋ค.
๋์งธ, ๋ฐฐ๊ฒฝ ํด๋์ค('O' ํ๊ทธ)์ ์๋์ ๋น์ค์ ๋๋ค. NER ํ์คํฌ์ ํน์ฑ์, ๋ฌธ์ฅ์์ ์ค์ ๊ฐ์ฒด๋ช ์ผ๋ก ๋ถ๋ฅ๋๋ ํ ํฐ์ ๊ทน์์์ด๋ฉฐ, ๋๋จธ์ง 90% ์ด์์ ์๋ฏธ ์๋ ์ผ๋ฐ ํ ํฐ์ธ 'O' ํ๊ทธ๋ก ๋ผ๋ฒจ๋ง๋ฉ๋๋ค. ์ด ๊ฒฝ์ฐ ๋ชจ๋ธ์ "๋ชจ๋ ํ ํฐ์ 'O'๋ผ๊ณ ์์ธก"ํ๊ธฐ๋ง ํด๋ 90% ์ด์์ ์ ํ๋(Accuracy)๋ฅผ ๋ณด์ด๋ ๋ฌธ์ ์ ์ ๊ฐ์ต๋๋ค. ๋ชจ๋ธ ์ ์ฅ์์๋ ๋ณต์กํ ๋ฌธ๋งฅ์ ํ์ ํด ๊ฐ์ฒด๋ช ์ ์ฐพ๋ค๊ฐ ํ๋ ค ๋ฒ์ (Loss)์ ๋ฐ๋๋, ๋ฌด์กฐ๊ฑด 'O'๋ผ๊ณ ๋ตํ๋ ๊ฒ์ด ๊ฐ์ฅ ์์ ํ ์ ํ์ด ๋๊ธฐ ๋๋ฌธ์ ๋๋ค. ์ด๋ ๊ฒฐ๊ตญ ๊ฐ์ฒด๋ช ํ์ง ์์ฒด๋ฅผ ์๊ทน์ ์ผ๋ก ๋ง๋ค๊ฒ ๋ฉ๋๋ค.
์ด ๋ ๊ฐ์ง ๋ฌธ์ ๋ ์๋ก ๋ง๋ฌผ๋ฆฌ๋ฉด์, ๋ชจ๋ธ์ด ์์ ํด๋์ค๋ ๋ฌด์ํ๊ณ , ๋๋ถ๋ถ์ ํ ํฐ์ โOโ๋ก ๋ถ๋ฅํ๋ ๋ฐฉํฅ์ผ๋ก ํ์ต๋ ์ํ์ ๋ดํฌํฉ๋๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด์๋ ํ์ต ๋ฐ์ดํฐ ๊ตฌ์ฑ๊ณผ ์์ค ํจ์ ์ค๊ณ ๋ฑ ๋ค์ํ ์ธก๋ฉด์์ Class Imbalance๋ฅผ ๊ณ ๋ คํ ์ ๋ต์ด ํ์ํฉ๋๋ค.
2) ํด๊ฒฐ ์ ๋ต A: LLM ๊ธฐ๋ฐ์ ๋ฐ์ดํฐ ๋ฐธ๋ฐ์ฑ
์ ํฌ๋ ๊ฐ์ฅ ๋จผ์ ๋ฐ์ดํฐ ์์ฑ ๋จ๊ณ์์๋ถํฐ ๋ฌผ๋ฆฌ์ ์ธ ๋ถ๊ท ํ์ ํด์ํ๊ณ ์ ํ์ต๋๋ค. ๊ธฐ์กด์ ๋๋ค ์ํ๋ง ๋ฐฉ์ ๋์ , LLM์ ํ์ฉํ ์ฆ๊ฐ(Augmentation)์ ๋์ ํ์ต๋๋ค. ์๋ ๋ฐ์ดํฐ์ ํน์ ํด๋์ค(์: ์ด๋ฆ, ๋ฉ์ผ์ฃผ์)๋ง ํธ์ค๋์ด ์๋ค๋ฉด, ํ๋กฌํํธ ์์ง๋์ด๋ง์ ํตํด ํฌ๊ท ํด๋์ค(๊ฐ๋งน์ ๋ช , ๊ฒฐ์ ๊ธ์ก ๋ฑ)๊ฐ ํฌํจ๋ ๋ฌธ๋งฅ์ ๊ฐ์ ๋ก ์์ฑํด๋์ต๋๋ค. ํฌ๊ท ํด๋์ค๊ฐ ์์ฐ์ค๋ฌ์ด ๋ฌธ๋งฅ ์์์ 10๊ฐ ์ด์์ ๋ค์ํ ๋ณํ์ ๊ฐ๋๋ก ์ ๋ํ์ต๋๋ค. ์ด๋ฅผ ํตํด ๋ชจ๋ธ์ ํฌ๊ทํ ํด๋์ค์ ๋ํด์๋ ์ถฉ๋ถํ ๋ฌธ๋งฅ์ ๋จ์๋ฅผ ํ์ตํ ์ ์๋ ๊ธฐ๋ฐ์ ๋ง๋ จํ์ต๋๋ค.
3) ํด๊ฒฐ ์ ๋ต B: Effective Number ๊ธฐ๋ฐ์ ์์ค ํจ์ ์ฌ์ค๊ณ
๋ฐ์ดํฐ ์ฆ๊ฐ์ผ๋ก๋ ํด๊ฒฐ๋์ง ์๋ ๋ฏธ์ธํ ๋ถ๊ท ํ์ ์์ค ํจ์(Loss Function) ๋ ๋ฒจ์์ ์ ์ดํ์ต๋๋ค. ์ด๋ ๋จ์ํ ๋น๋ ์ญ์(Inverse Frequency)๊ฐ ์๋, ์ ํจ ์ํ ์(Effective Number of Samples) ๊ฐ๋ ์ ๋์ ํ์ฌ ํด๋์ค ๊ฐ์ค์น(Class Weight)๋ฅผ ์ ๊ตํ๊ฒ ์ค๊ณํ์ต๋๋ค.
์ ๋ณด ์ด๋ก ์ ๊ด์ ์์ ๋ณผ ๋, ๋ฐ์ดํฐ๊ฐ ๋ง์์ง์๋ก ์๋ก์ด ์ํ์ด ์ ๊ณตํ๋ ์ ๋ณด๋์ ํ๊ณ ํจ์ฉ์ ์ฒด๊ฐํฉ๋๋ค. ์ฆ, ๋์ผํ ํด๋์ค์ 1๋ฒ์งธ ๋ฐ์ดํฐ๋ ๋ชจ๋ธ์๊ฒ ์๋ก์ด ์ ๋ณด๋ฅผ ์ฃผ์ง๋ง, 1,000๋ฒ์งธ ๋ฐ์ดํฐ๋ ์์ 999๊ฐ์ ์ ์ฌํ ํน์ฑ์ ๊ณต์ ํ๋ฏ๋ก ์ ๋ณด์ ์ค๋ณต์ฑ์ด ๋์ต๋๋ค. ์ด ์ ์ ์ฐฉ์ํ์ฌ, ์ํ์ ๋จ์ ๊ฐ์๊ฐ ์๋ '์ ๋ณด์ ์ ํจ ํฌ๊ธฐ'๋ฅผ ๊ธฐ์ค์ผ๋ก ๊ฐ์ค์น๋ฅผ ์ฐ์ถํ์ต๋๋ค.
ํฌ๊ท ํด๋์ค: ๋์ ์ค๋ณต์ฑ์ ๊ฐ์ง์ง ์์ผ๋ฏ๋ก ์๋์ ์ผ๋ก ๋์ ๊ฐ์ค์น๋ฅผ ๋ถ์ฌํ์ฌ, ๋ชจ๋ธ์ด ํ ๋ฒ ํ๋ฆด ๋๋ง๋ค ํฐ ํ๋ํฐ๋ฅผ ๋ฐ๋๋ก ์ ๋ํ์ต๋๋ค.
๋น์ถ ํด๋์ค('O' ํฌํจ): ์ด๋ฏธ ์ถฉ๋ถํ ์ ๋ณด๋์ ๊ฐ์ง๊ณ ์์ผ๋ฏ๋ก ๊ฐ์ค์น๋ฅผ ๋ฎ์ถฐ, ํ์ต ๊ณผ์ ์์ ๋ฐ์ํ๋ ๊ทธ๋๋์ธํธ(Gradient)๊ฐ 'O' ํ๊ทธ์ ์ํด ์ง๋ฐฐ๋๋ ํ์์ ์ต์ ํ์ต๋๋ค.
์ด๋ฌํ ๊ฐ์ค์น ์ฌ์กฐ์ ์ ๋ชจ๋ธ์ด "O๋ผ๊ณ ์ฐ๋ ์์ ํ ์ ํ"์ ํ ๋ ์ป๋ ์ด๋์ ์ค์ด๊ณ , "ํฌ๊ท ํด๋์ค๋ฅผ ๋ง์ท์ ๋ ์ป๋ ๋ณด์"์ ๊ทน๋ํํ์ฌ ํ์ต์ ๊ท ํ์ ์ ์ฌ๋ฐ๋ฅธ ๋ฐฉํฅ์ผ๋ก ์ด๋์์ผฐ์ต๋๋ค.
4) ํด๊ฒฐ ์ ๋ต C: Context Window ์ํ๋ง
๋ง์ง๋ง์ผ๋ก, ํ์ต ํจ์จ์ฑ์ ๊ทน๋ํํ๊ธฐ ์ํด ์ ๋ ฅ ๋ฐ์ดํฐ์ ๊ตฌ์ฑ ๋ฐฉ์์ ๋ณ๊ฒฝํ์ต๋๋ค. ๋ฌธ์ฅ ์ ์ฒด๋ฅผ ํต์งธ๋ก ๋ฃ๋ ๊ธฐ์กด ๋ฐฉ์์ ๋ถํ์ํ 'O' ํ๊ทธ๊ฐ ๊ณผ๋ํ๊ฒ ํฌํจ๋์ด ํ์ต ํธํฅ์ ์ ๋ฐํฉ๋๋ค. ์ด๋ฅผ ๋ฐฉ์งํ๊ธฐ ์ํด ๊ฐ์ฒด๋ช ์ค์ฌ์ ์๋์ฐ ์ํ๋ง์ ์ ์ฉํ์ต๋๋ค. ๊ฐ์ฒด๋ช ์ด ๋ฑ์ฅํ๋ ์์น๋ฅผ ๊ธฐ์ค์ผ๋ก ์๋ค ์ผ์ ๋ฒ์(Context Window)์ ๋ฌธ๋งฅ๋ง์ ์๋ผ๋ด์ด ํ์ต ๋ฐ์ดํฐ๋ก ๊ตฌ์ฑํ์ต๋๋ค. ์ด ๋ฐฉ์์ ๋ชจ๋ธ์ด ๊ฐ์ธ์ ๋ณด๊ฐ ๋ฑ์ฅํ๊ธฐ ์ง์ /์งํ์ ๊ฒฐ์ ์ ์ธ ๋ฌธ๋งฅ ํจํด์ ์ง์คํ๊ฒ ๋ง๋ค๋ฉฐ, ์ ์ฒด ๋ฐ์ดํฐ์ ์์ 'O' ํ๊ทธ๊ฐ ์ฐจ์งํ๋ ์ ๋์ ์ธ ๋น์ค์ ๋ฎ์ถ๋ ํจ๊ณผ๋ฅผ ๊ฐ์ ธ์์ต๋๋ค. ๋จ, ๋ฌธ๋งฅ์ด ๋๋ฌด ์งง์์ง๋ฉด ์๋ฏธ ํ์ ์ด ๋ถ๊ฐ๋ฅํด์ง๋ ๋ถ์์ฉ์ ๋ง๊ธฐ ์ํด, ์ต์ ํ ํฐ ๊ธธ์ด(Minimum Token Length)๋ฅผ ์ค์ ํ์ฌ ๋ฌธ๋งฅ์ ์๋ฏธ์ ์๊ฒฐ์ฑ์ ๋ณด์ฅํ์ต๋๋ค.
์ง๊ธ๊น์ง ๋ณด์์ด ์๋ช ์ธ ๊ธ์ต ๋๋ฉ์ธ์ ํน์์ฑ ์์์ '์ ๋ก๋ฒ ์ด์ค ๋ฐ์ดํฐ ๊ตฌ์ถ'๊ณผ 'ํด๋์ค ๋ถ๊ท ํ ํด๊ฒฐ'์ด๋ผ๋ ๋ ๊ฐ์ง ๋์ ๋ฅผ ์ด๋ป๊ฒ ๊ธฐ์ ์ ์ผ๋ก ๋ํํ๋์ง ์์ธํ ๊ณต์ ํด ๋๋ ธ์ต๋๋ค. ๋ฌผ๋ก ์ด ์ธ์๋ ๋น์๋ณํ๋ ๋ฐ์ดํฐ๋ฅผ ํ์ค์ ์ธ ๊ฐ์ผ๋ก ์นํํ๋ Re-identification ์ ๋ต์ด๋, ์กฐ์ฌ์ ๊ฒฐํฉ๋ ์ํฐํฐ ๊ฒฝ๊ณ(Entity Boundary) ๋ฌธ์ ๋ฑ ์ค๋ฌด์ ์ธ ๋ํ ์ผ์ด ๋ ์กด์ฌํฉ๋๋ค๋ง, ๋ณธ ๊ธ์์๋ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๊ฒฐ์ ์ง๋ ๊ฐ์ฅ ํต์ฌ์ ์ธ ๋ผ๋๋ค์ ์ค์ฌ์ผ๋ก ๋ค๋ฃจ์์ต๋๋ค.
์ด์ ์ฐ๋ฆฌ์ ์์ ์ ๋ด๋ถ์์ ์ธ๋ถ๋ก ๋๋ ค๋ณผ ์ฐจ๋ก์ ๋๋ค. ๊ณผ์ฐ ๋ค๋ฅธ ์ฐ๊ตฌ์๋ค์ ์ด ๊น๋ค๋ก์ด ๊ฐ์ธ์ ๋ณด ๋ง์คํน ๋ฌธ์ ๋ฅผ ์ด๋ป๊ฒ ํ๊ณ ์์๊น์? ๋ค์ ์ฅ์์๋ ์ต์ ์ฐ๊ตฌ ๋ํฅ์ ํตํด ๋ณธ ํ๋ก์ ํธ์ ๊ธฐ์ ์ ์์น๋ฅผ ์ ๊ฒํด ๋ณด๊ฒ ์ต๋๋ค.
์ง๊ธ๊น์ง ์ ๋ก๋ฒ ์ด์ค์์ ๋ฐ์ดํฐ๋ฅผ ๊ตฌ์ถํ๊ณ ํด๋์ค ๋ถ๊ท ํ์ ํด๊ฒฐํ๋ฉฐ ์์ฒด ๋ชจ๋ธ์ ๊ฐ๋ฐํ ๊ณผ์ ์ ๊ณต์ ํ์ต๋๋ค. ๊ทธ๋ ๋ค๋ฉด ํ์ฌ ํ๊ณ์ ๊ธ๋ก๋ฒ ์ฐ์ ๊ณ์์๋ ๊ฐ์ธ์ ๋ณด ๋ง์คํน ๋ฌธ์ ๋ฅผ ์ด๋ป๊ฒ ํ๊ณ ์์๊น์?
2024๋ ๊ณผ 2025๋ ์ ๋ฐํ๋ ์ต์ ์ฐ๊ตฌ๋ค์ ์ดํด๋ณด๋ฉด, ํ๋ฆ์ ํฌ๊ฒ
1) LLM์ ํ๊ณ์ ํฉ์ฑ ๋ฐ์ดํฐ,
2) ์ค์ฉ์ฑ์ ์ํ ๊ฒฝ๋ํ(Efficiency),
3) ๋๋ฉ์ธ ๋ฐ ์ธ์ด ํนํ ๋ผ๋ ์ธ ๊ฐ์ง ํต์ฌ ์ค๊ธฐ๋ก ์์ฝ๋ฉ๋๋ค.
ํฅ๋ฏธ๋ก์ด ์ ์, ์ด๋ฌํ ์ต์ ์ฐ๊ตฌ ๊ฒฐ๊ณผ๋ค์ด ๋ณธ ํ๋ก์ ํธ๊ฐ ์ ํํ ๊ธฐ์ ์ ์์ฌ๊ฒฐ์ ๋ค๊ณผ ๋ถํฉํ๋ค๋ ์ฌ์ค์ ๋๋ค.
1) LLM, ๋ง๋ฅ์ด์ ์ผ๊น? : ํฉ์ฑ ๋ฐ์ดํฐ์ ์ ๋ณด ์์ค์ ๋๋ ๋ง
์ต๊ทผ ์ฐ๊ตฌ๋ค์ LLM์ ๋น์๋ณํ์ ๋๊ตฌ๋ก ์ฐ๋, ๊ทธ ํ๊ณ๋ฅผ ๋์ ํ๊ฒ ํ๊ฐํ๊ณ ์์ต๋๋ค.
Not What the Doctor Ordered: Surveying LLM-based De-identification and Quantifying Clinical Information Loss[3] (EMNLP, 2025): ์ด ์ฐ๊ตฌ๋ LLM์ ์ด์ฉํ ๋น์๋ณํ๊ฐ ๊ฐ์ธ์ ๋ณด๋ฅผ ์ ํ์งํ๋ ๋ฏํ์ง๋ง, ์ค์ ๋ก๋ ํ์์๊ฒ ์ค์ํ ์ ๋ณด(์ง๋จ๋ช , ์ฝ๋ฌผ ๋ฑ)๊น์ง ๊ณผ๋ํ๊ฒ ์ ๊ฑฐํ๊ฑฐ๋ ๋ณํํ๋ ์น๋ช ์ ์ธ ๋จ์ ์ด ์์์ ์ง์ ํ์ต๋๋ค. ๊ธ์ต ๋ฐ์ดํฐ ์ญ์ ์ซ์ ํ๋, ๋จ์ด ํ๋์ ๋ฌด๊ฒฐ์ฑ์ด ๋งค์ฐ ์ค์ํ๊ธฐ ๋๋ฌธ์, ์์ฑํ ๋ชจ๋ธ ํน์ ์ ํ๊ฐ(Hallucination) ์ํ์ฑ์ ์ค์ ์๋น์ค ์ ์ฉ์ ํฐ ๊ฑธ๋ฆผ๋์ด ๋ ์ ์์ต๋๋ค. ์ด๋ ์ฐ๋ฆฌ๊ฐ ํต์ ๊ฐ๋ฅํ BERT-CRF ๋ชจ๋ธ์ ๊ตฌ์ถํด์ผ ํ๋ ํ๋์ ๊ทผ๊ฑฐ์ด๊ธฐ๋ ํฉ๋๋ค.
SPY: Enhancing Privacy with Synthetic PII Detection Dataset[4] (NAACL, 2025): ์ด ์ฐ๊ตฌ๋ LLM์ ์ง์ ๋ง์คํน์ ์ฐ๋ ๋์ , ๊ณ ํ์ง์ ํฉ์ฑ ๋ฐ์ดํฐ์ (Synthetic Dataset)์ ๋ง๋๋ ๋๊ตฌ๋ก ํ์ฉํ ๊ฒ์ ์ ์ํ์ต๋๋ค. ํนํ ๋จ์ ์์ฑ์ด ์๋๋ผ '์ง์ (Occupation)'์ด๋ '์ฑ๊ฒฉ(Personality)' ๊ฐ์ ํ๋ฅด์๋๋ฅผ ๋ถ์ฌํด ๋ฐ์ดํฐ์ ๋ค์์ฑ์ ํ๋ณดํ์ต๋๋ค. ์ด๋ ์ ํฌ๊ฐ ์๋ ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ค์ํ ๊ธ์ต ๋ฏผ์ ์๋๋ฆฌ์ค๋ฅผ ํ์ฅํ์ฌ ๋ฐ์ดํฐ ํธํฅ์ ๊ทน๋ณตํ๋ ์ ๊ทผ ๋ฐฉ์๊ณผ ์ผ๋งฅ์ํตํ๋ ๊ฒฐ๊ณผ์ ๋๋ค.
2) ๋ฌด๊ฑฐ์ด ๋ชจ๋ธ์ ๊ฐ๋ณ๊ฒ : ์ง์ ์ฆ๋ฅ์ ํ์ด๋ธ๋ฆฌ๋ ์ ๊ทผ
ํ์ ์์๋ ์ฑ๋ฅ๋งํผ์ด๋ '๋น์ฉ'๊ณผ '์๋'๊ฐ ์ค์ํฉ๋๋ค. ์ด์ ๋ฐ๋ผ ๊ฑฐ๋ ๋ชจ๋ธ์ ์ง์์ ์์ ๋ชจ๋ธ๋ก ์ฎ๊ธฐ๊ฑฐ๋, ๊ท์น ๊ธฐ๋ฐ ๋ฐฉ์์ ๊ฒฐํฉํ๋ ์ค์ฉ์ ์ฐ๊ตฌ๋ค์ด ์ฃผ๋ชฉ๋ฐ๊ณ ์์ต๋๋ค.
Resource-Efficient Anonymization of Textual Data via Knowledge Distillation from Large Language Models[5] (COLING, 2025): ํด๋น ์ฐ๊ตฌ์์๋ LLM์ ์ง์์ ์ํ ๋ชจ๋ธ๋ก ์ฎ๊ธฐ๋ ์ง์ ์ฆ๋ฅ(Distillation)์ ํจ๊ป, ์ ๊ทํํ์์ ๊ฒฐํฉํ ํ์ด๋ธ๋ฆฌ๋ ํ์ดํ๋ผ์ธ์ ์ ์ํ์ต๋๋ค. ์ต์ ์ฐ๊ตฌ์์๋ ์ฌ์ ํ ์ ๊ท์๊ณผ ๋ชจ๋ธ์ ์ํธ๋ณด์์ ์ผ๋ก ์ฌ์ฉํ๋ ํ์ด๋ธ๋ฆฌ๋ ์ ๊ทผ๋ฒ์ด ํ์ค์์ ํ์ธํ ์ ์์์ต๋๋ค.
GLiNER: Generalist Model for Named Entity Recognition using Bidirectional Transformer[6] (NAACL, 2024): ์ด ์ฐ๊ตฌ๋ ์ฌ์ ์ ์๋ ์ํฐํฐ๋ง ํ์งํ๋ ๊ธฐ์กด ํ๊ณ๋ฅผ ๋์ด, ํ๋ จํ์ง ์์ ์๋ก์ด ์ ํ๋ ์ ์ฐํ๊ฒ ์ฐพ๋ ์ ๋ก์ท(Zero-shot) ๋ชจ๋ธ์ ์ ์ํ์ต๋๋ค. ๋น๋ก ๊ธ์ต ๋๋ฉ์ธ์ ํน์ฑ์ ๊ณ ๋ คํ์ฌ ์ ํฌ๋ BERT-CRF๋ฅผ ์ ํํ์ง๋ง, ๋ฌด๊ฑฐ์ด LLM ๋์ ํจ์จ์ ์ธ ์ํ ๋ชจ๋ธ(BiLM)์ ์ฌ์ฉํ๋ ์ ๊ทผ๋ฒ์ ๋ณธ ํ๋ก์ ํธ์ ์ ์ฌํฉ๋๋ค. ํนํ Negative Entity Sampling์ ํตํด ๋ชจ๋ธ์ ๊ณผ์ ํฉ์ ๋ง๊ณ ํ์ต ๊ท ํ์ ๋ง์ถ๋ ๊ธฐ๋ฒ์ ์ ํฌ๊ฐ ํด๋์ค ๋ถ๊ท ํ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋์ ํ ์ ๋ต์ ํ๋น์ฑ์ ๋ท๋ฐ์นจํด์ค๋๋ค.
3) ํ๊ตญ์ด์ ๋๋ฉ์ธ ํนํ : ๋ฒ์ฉ ๋ชจ๋ธ์ด ๋์น๋ ๋ํ ์ผ
๋ฒ์ฉ ๋ชจ๋ธ(General LLM)๋ณด๋ค๋ ํน์ ์ธ์ด์ ํนํ๋ ๋ชจ๋ธ์ด ์ฌ์ ํ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ฐํํ๋ค๋ ์ฐ๊ตฌ ๊ฒฐ๊ณผ๋ ์์ต๋๋ค.
Thunder-DeID: Accurate and Efficient De-identification Framework
for Korean Court Judgments[7] (EMNLP, 2025): ์ด ์ฐ๊ตฌ๋ ๊ณ ๋ฏผํ๋ '๋ฐ์ดํฐ ๋ถ์ฌ ํด๊ฒฐ ์ ๋ต'๊ณผ 'ํ๊ตญ์ด ํนํ ์ฒ๋ฆฌ' ๋ฐฉ์์ ๊ทธ๋๋ก ๋ณด์ฌ์ค๋๋ค. ์๋ณธ ๋ฐ์ดํฐ ์ ๊ทผ์ด ๋ถ๊ฐ๋ฅํ ๋ฒ๋ฅ ๋๋ฉ์ธ์์, ๋น์๋ณํ๋ ๋ฌธ์๋ฅผ ์๋ ๋ฐ์ดํฐ๋ก ํ์ฉํ๋ ๋ฐฉ์์ ์ฌ์ฉํ์ต๋๋ค. ํนํ ์ฃผ๋ชฉํ ์ ์ ํํ์ ๋ถ์๊ธฐ(Mecab)์ ํ์ฉ์ ๋๋ค. ์ ํฌ๋ ํ๋ก์ ํธ ์ผ์ ์ ์กฐ์ฌ๋ฅผ ๋ถ๋ฆฌํ๋ ์ ์ฒ๋ฆฌ๋ฅผ ๊น๊ฒ ์ ์ฉํ์ง ๋ชปํ๋๋ฐ, ์ด ๋ ผ๋ฌธ์์๋ Mecab์ ์ด์ฉํด ๋ช ์ฌ์ ์กฐ์ฌ๋ฅผ ์ ๋ฐํ๊ฒ ๊ตฌ๋ถํจ์ผ๋ก์จ ์ฑ๋ฅ์ ๋์์ต๋๋ค. ์ด๋ "ํ๊ตญ์ด์ ๊ฐ์ ๊ต์ฐฉ์ด์์๋ ํํ์ ๋ถ์์ด ํ์์ "์ด๋ผ๋ ์ ํฌ ๊ฐ์ค๊ณผ ๋ง์ ๋จ์ด์ง๋ฉฐ, ํฅํ ๊ณ ๋ํ ๊ณผ์ ์์ ๋ฐ๋์ ์ ์ฉํด์ผ ํ ๊ฐ์ ์ ์์ ์์ฌํฉ๋๋ค. ๊ฒฐ๊ตญ ๋๋ฉ์ธ์ ๋ฌ๋ผ๋(๊ธ์ต vs ๋ฒ๋ฅ ), ๋ฏผ๊ฐ ์ ๋ณด๋ฅผ ๋ค๋ฃจ๋ ๋ด๋ถ๋ง ํ๊ฒฝ์์์ ์์กด ์ ๋ต์ ํตํ๋ค๋ ๊ฒ์ ์ ์ ์์์ต๋๋ค.
๐ก ์์ฝ ๋ฐ ์์ฌ์
์ต์ ์ฐ๊ตฌ ๋ํฅ์ ์ข ํฉํด๋ณผ ๋, "๋ฌด์กฐ๊ฑด ์ต์ LLM์ ์ฐ๋ ๊ฒ์ด ์ ๋ต์ ์๋๋ค"๋ผ๋ ๊ฒฐ๋ก ์ ๋๋ฌํฉ๋๋ค.
Safety: LLM์ ์ง์ ๋ง์คํน ๋๊ตฌ๋ก ์ฐ๊ธฐ์ ํ๊ฐ๊ณผ ์ ๋ณด ์์ค ๋ฆฌ์คํฌ๊ฐ ์กด์ฌํฉ๋๋ค.
Efficiency: ์ค์ ์๋น์ค ํ๊ฒฝ(On-premise)์์๋ ๊ฒฝ๋ํ๋ ํนํ ๋ชจ๋ธ(BERT)๊ณผ ์ ๊ท ํํ์์ ๊ฒฐํฉํ๋ ํ์ด๋ธ๋ฆฌ๋ ์ ๊ทผ๋ฒ์ด ์๋์ ์ ํ๋ ๋ฉด์์ ํฉ๋ฆฌ์ ์ธ ์ ํ์ง๊ฐ ๋ ์ ์์ต๋๋ค.
Specialty: ํนํ ํ๊ตญ์ด ๊ธ์ต ๋ฐ์ดํฐ์ ๊ฐ์ ํน์ ๋๋ฉ์ธ์์๋ ๋ฒ์ฉ ๋ชจ๋ธ๋ณด๋ค ๋๋ฉ์ธ ์ ์(Domain Adaptation)์ ๊ฑฐ์น ํนํ ๋ชจ๋ธ์ด ์ ๋ฆฌํ ์ ์์ต๋๋ค.
์ด๋ฌํ ํ๊ณ์ ํ๋ฆ์ ๋ณธ ํ๋ก์ ํธ์์ ์ฑํํ 'LLM ๊ธฐ๋ฐ ๋ฐ์ดํฐ ์์ฑ โ BERT+CRF ํ์ด๋ธ๋ฆฌ๋ ๋ชจ๋ธ ๊ตฌ์ถ' ์ ๋ต์ด ๊ธฐ์ ํธ๋ ๋์ ์ ํํ ๋ถํฉํ๋ฉฐ, ์ค๋ฌด์ ์ผ๋ก๋ ํฉ๋ฆฌ์ ์ธ ๋ฐฉ๋ฒ์์ ๋ณด์ฌ์ค๋๋ค.
์ด์ ๋ง์ง๋ง์ผ๋ก, ์ด๋ ๊ฒ ์ค๊ณ๋ ๋ชจ๋ธ์ด ์ ํต์ ์ธ ์ ๊ทํํ์์ด๋ ์ต์ LLM๊ณผ ๋น๊ตํ์ ๋ ์ค์ ๋ก ์ด๋ค ์ฑ๋ฅ ์ฐจ์ด๋ฅผ ๋ณด์๋์ง, ์์๋ฅผ ํตํด์ ํ์ธํด๋ณด๊ฒ ์ต๋๋ค.
๊ธฐ์ ์ ์์ฌ๊ฒฐ์ ์ ํต์ฌ์ ์ต์ ์ ๊ธฐ์ ์ ์ฐ๋ ๊ฒ์ด ์๋๋ผ, ๋ฌธ์ ์ ๊ฐ์ฅ ์ ํฉํ ๊ธฐ์ ์ ์ ํํ๋ ๊ฒ์ ๋๋ค. ์ด๋ฒ ์ฅ์์๋ ์ฐ๋ฆฌ๊ฐ ์ ์ ํต์ ์ธ ์ ๊ทํํ์๊ณผ ๋ ์ค๋ฅด๋ LLM์ ๋๊ณ , BERT-CRF๋ฅผ ์ ํํ๋์ง์ ๋ํด์ ๋ค๋ค๋ณด๊ฒ ์ต๋๋ค.
์ ํต์ ์ธ ๋ง์คํน ์์คํ ์ ๋๋ถ๋ถ ์ ๊ทํํ์(Regular Expression)์ ์์กดํด ์์ต๋๋ค. ์ ํ๋ฒํธ๋ ์ฃผ๋ฏผ๋ฑ๋ก๋ฒํธ์ฒ๋ผ ํ์์ด ๊ณ ์ ๋ ๋ฐ์ดํฐ(Structured Data)๋ฅผ ์ฒ๋ฆฌํ๋ ๋ฐ ์์ด ์ ๊ท์๋งํผ ๋น ๋ฅด๊ณ ํ์คํ ๋๊ตฌ๋ ์๊ธฐ ๋๋ฌธ์ ๋๋ค. ํ์ง๋ง ์ค์ ๊ธ์ต ํ์ฅ์ ๋ฐ์ดํฐ๋ ๊ฒฐ์ฝ ์์ ํ์ง ์์ต๋๋ค. ๊ณ ๊ฐ์ด ๋จ๊ธด ๊ฑฐ์น ๋น์ ํ ํ ์คํธ(Unstructured Text) ์์์๋ ์ ๊ท์์ ์ฌ์ ํ ์ ํจํ ๊น์?
1) ์ ๊ท์์ ๋ ๊ฐ์ง ์น๋ช ์ ์ฝ์
์ฒซ์งธ, ๋ณ์น์ ํํ์ ๋ํ ์ทจ์ฝ์ฑ์
๋๋ค.
์ ๊ท์์ '์ ํด์ง ํ'์
๋๋ค. ์ค์ ๋ฐ์ดํฐ์ ๋น๋ฒํ ์คํ, ์๋์ ์ธ ๋์ด์ฐ๊ธฐ, ํน์๋ฌธ์ ์ฝ์
๋ฑ์ด ๋ฐ์ํ๋ฉด, ๋จ ํ ๊ธ์๋ง ์ด๊ธ๋๋ ํ์ง์ ์คํจํฉ๋๋ค. ๋ชจ๋ ๋ณ์(๋์ด์ฐ๊ธฐ ๊ฒฝ์ฐ์ ์ ๋ฑ)๋ฅผ ์ ๊ท์์ ๋ค ๋ฃ์ผ๋ ค๋ค๊ฐ๋ ํจํด์ด ๊ธฐํ๊ธ์์ ์ผ๋ก ๋ณต์กํด์ ธ ์ ์ง๋ณด์๊ฐ ๋ถ๊ฐ๋ฅํด์ง๋๋ค.
๋์งธ, ์๋ฏธ ๊ธฐ๋ฐ ์ ๋ณด์ ํ์ง ๋ถ๊ฐ์
๋๋ค.
'์ด๋ฆ'์ด๋ '์์ธ ์ฃผ์', '๊ฐ๋งน์ ๋ช
'์ ์ ํด์ง ์ซ์ ํจํด์ด ์์ต๋๋ค. "์ด์์ ", "์์ง๋ฌธ๋"์ด๋ผ๋ ๋จ์ด๋ Context ์์์๋ง ์ฌ๋ ์ด๋ฆ์ผ๋ก ๊ธฐ๋ฅํ ๋ฟ, ๊ธ์ ์์ฒด์๋ ๊ณ ์ ํ ๊ท์น์ด ์์ต๋๋ค. ์ ๊ท์์ ๊ธ์ ๋ชจ์๋ง ๋ณผ ๋ฟ, ๊ทธ ์๋ฏธ๋ฅผ ์ฝ์ง ๋ชปํฉ๋๋ค.
2) ์ค์ ๋ฐ์ดํฐ ๋น๊ต : Regex vs NER (Case Study)
๋ฐ๋ฉด, ์ ํฌ๊ฐ ๊ตฌํํ ํ์ด๋ธ๋ฆฌ๋ ์ ๊ทผ๋ฒ(NER ๋ชจ๋ธ)์ ์ฃผ๋ณ ๋จ์ด๋ฅผ ํตํด ๋ฌธ๋งฅ์ ์ฝ์ต๋๋ค. ์๋๋ ์ค์ ๊ธ์ต ๋ฐ์ดํฐ์์ ๋ฐ์ํ ์ ์๋ 4๊ฐ์ง ๋ํ์ ์ธ ์ผ์ด์ค์ ๋ํด ์ ๊ท์๊ณผ NER ๋ชจ๋ธ์ ํ์ง ๊ฒฐ๊ณผ๋ฅผ ๋น๊ตํ ๊ฒ์ ๋๋ค.
์ผ์ด์ค | ์์ ๋ฌธ์ฅ | ์ ๊ท์ ๊ฒฐ๊ณผ | NER ๋ชจ๋ธ ๊ฒฐ๊ณผ |
|---|---|---|---|
| "๋น์ฒจ์๋ ์ดํ๋ ๋์ ๋๋ค." | - ๋ง์คํน ํ ์คํธ: ์ด๋ฒ ์ด๋ฒคํธ ๋น์ฒจ์๋ ์ดํ๋ ๋์ ๋๋ค. - ๋ฐ๊ฒฌ ๊ฐ์: 0๊ฐ | - ๋ง์คํน ํ ์คํธ: ์ด๋ฒ ์ด๋ฒคํธ ๋น์ฒจ์๋ [์ด๋ฆ] ๋์ ๋๋ค. - ๋ฐ๊ฒฌ ๊ฐ์: 1๊ฐ * ์ดํ๋ -> [์ด๋ฆ] (์ ๋ขฐ๋: 0.966) |
(์ค์์ฑ ํด๊ฒฐ) | "์ค๋ ์ดํ๋ ์๋ ๋ชจ์์ต๋๋ค." | - ๋ง์คํน ํ ์คํธ: ์ค๋ ์ดํ๋ ์๋ ์ฐ๋ฆฌ๊ฐ ํจ๊ป ๋ชจ์์ต๋๋ค. - ๋ฐ๊ฒฌ ๊ฐ์: 0๊ฐ | - ๋ง์คํน ํ ์คํธ: ์ค๋ ์ดํ๋ ์๋ ์ฐ๋ฆฌ๊ฐ ํจ๊ป ๋ชจ์์ต๋๋ค. - ๋ฐ๊ฒฌ ๊ฐ์: 0๊ฐ |
| "์ฃผ๋ฏผ๋ฒํธ๋ 950101 - 1*** ์ ๋๋ค." | - ๋ง์คํน ํ ์คํธ: ์ฃผ๋ฏผ๋ฒํธ๋ 950101 - 1**** ์ ๋๋ค. - ๋ฐ๊ฒฌ ๊ฐ์: 0๊ฐ | - ๋ง์คํน ํ ์คํธ: ์ฃผ๋ฏผ๋ฒํธ๋ [์ฃผ๋ฏผ๋ฑ๋ก๋ฒํธ] ์ ๋๋ค. - ๋ฐ๊ฒฌ ๊ฐ์: 1๊ฐ * 950101-1**** -> [์ฃผ๋ฏผ๋ฑ๋ก๋ฒํธ] (์ ๋ขฐ๋: 0.969) |
| "์ฃผ์๋ ์์ธ์ ๊ฐ๋จ๊ตฌ ํ ํค๋๋ก 123์ด๊ณ 4์ธต์ ๋๋ค." | - ๋ง์คํน ํ ์คํธ: ์ฃผ์๋ ์์ธ์ ๊ฐ๋จ๊ตฌ ํ ํค๋๋ก 123์ด๊ณ 4์ธต์ ๋๋ค. - ๋ฐ๊ฒฌ ๊ฐ์: 0๊ฐ | - ๋ง์คํน ํ ์คํธ: ์ฃผ์๋ [์์ธ์ฃผ์]์ ๋๋ค. - ๋ฐ๊ฒฌ ๊ฐ์: 1๊ฐ * ์์ธ์๊ฐ๋จ๊ตฌํ ํค๋๋ก123์ด๊ณ 4์ธต -> [์์ธ์ฃผ์] (์ ๋ขฐ๋: 0.970) |
| "์ฅ๋ฏธ ์๋น์์ 2๋ง ์ ๊ฒฐ์ ํ์ต๋๋ค." | - ๋ง์คํน ํ ์คํธ: ์ฅ๋ฏธ ์๋น์์ [๊ธ์ก] ์ ๊ฒฐ์ ํ์ จ์ต๋๋ค. - ๋ฐ๊ฒฌ ๊ฐ์: 1๊ฐ * 2๋ง -> [๊ธ์ก] (์ ๋ขฐ๋: 1.000) | - ๋ง์คํน ํ ์คํธ: [๊ฐ๋งน์ ๋ช ]์์ [๊ฒฐ์ ๊ธ์ก] ๊ฒฐ์ ํ์ จ์ต๋๋ค. - ๋ฐ๊ฒฌ ๊ฐ์: 2๊ฐ * ์ฅ๋ฏธ์๋น -> [๊ฐ๋งน์ ๋ช ] (์ ๋ขฐ๋: 0.529) * 2๋ง์ -> [๊ฒฐ์ ๊ธ์ก] (์ ๋ขฐ๋: 0.885) |
3) ๊ฒฐ๋ก : ์ํธ ๋ณด์์ ์ธ ํ์ด๋ธ๋ฆฌ๋ ์ ๋ต
์ ๊ฒฐ๊ณผ์์ ๋ณด๋ฏ, ๋ฌธ๋งฅ ํ์ ์ด ํ์ํ ์์ญ์์๋ NER ๋ชจ๋ธ์ด ์๋์ ์ธ ์ฑ๋ฅ์ ๋ณด์ ๋๋ค. ํ์ง๋ง ๊ทธ๋ ๋ค๊ณ ์ ๊ท์์ ์์ ํ ๋ฐฐ์ ํ๋ ๊ฒ์ ์๋๋๋ค.
์ ๊ท์: ํ์์ด ๊ณ ์ ๋ ์ฃผ๋ฏผ๋ฑ๋ก๋ฒํธ, ์ ํ๋ฒํธ, ๋ฉ์ผ์ฃผ์ ๋ฑ์ 1์ฐจ ํํฐ๋ง (์๋์ ์ ํ์ฑ ๋ณด์ฅ)
NER ๋ชจ๋ธ: ์ด๋ฆ, ์ฃผ์, ๊ฐ๋งน์ ๋ช ๋ฑ ๋น์ ํ ํ ์คํธ ๋ฐ ๋ณ์น์ ํจํด ํ์ง (์ ์ฐ์ฑ๊ณผ ์ฌํ์จ ๋ณด์ฅ)
์ ํฌ๋ ์ด ๋ ๊ฐ์ง๋ฅผ ๊ฒฐํฉํ ํ์ด๋ธ๋ฆฌ๋ ํ์ดํ๋ผ์ธ์ ๊ตฌ์ถํจ์ผ๋ก์จ, ์ ๊ท์์ '์ ํ์ฑ'๊ณผ ๋ฅ๋ฌ๋์ '์ ์ฐ์ฑ'์ด๋ผ๋ ๋ ๋ง๋ฆฌ ํ ๋ผ๋ฅผ ๋ชจ๋ ์ก์ ์ ์์์ต๋๋ค.
์ต๊ทผ LLM์ด ๋ณด์ฌ์ฃผ๋ ๋ฌธ๋งฅ ์ดํด๋ ฅ์ ๋๋ผ์ด ์์ค์ ๋๋ค. ํ๋ก์ ํธ ์ด๊ธฐ์๋ ์ ํฌ ์ญ์ "๊ทธ๋ฅ LLM์๊ฒ ๋ง์คํน์ ์ํค๋ฉด ๋์ง ์์๊น?"๋ผ๋ ๊ณ ๋ฏผ์ ํ์ต๋๋ค. ํ์ง๋ง ํ๋ฃจ์๋ ์์ต๊ฑด ์ด์์ ์ฒ๋ฆฌํ๋ ๊ธ์ต๊ถ์ ๋์ฉ๋ ๋ก๊ทธ ์์คํ ์ด๋ผ๋ ํน์ํ ํ๊ฒฝ์ ๊ณ ๋ คํ์ ๋, ์ถ๋ก ์๋(Latency)๊ฐ ์ค์ํ์ต๋๋ค.
1) 1,000์ ์ฒ๋ฆฌ ์คํ : Latency์ ์ฐจ์ด
์์ฑ๋ ๊ธ์ต ์๋ด ๋ก๊ทธ 1,000์ ํ ์คํธ๋ฅผ ๋์์ผ๋ก ์ถ๋ก ์๋๋ฅผ ์ธก์ ํด๋ณด์์ต๋๋ค.
LLM (OpenRouter API, gpt-5-mini):
ํ๊ท 47์ด

์ด๋ฏธ์ง 4. LLM ์คํ ๊ฒฐ๊ณผ
Hybrid Approach:
ํ๊ท 0.1์ด

์ด๋ฏธ์ง 5. Hybrid Approach ์คํ ๊ฒฐ๊ณผ
๋ฌด๋ ค 470๋ฐฐ์ ์๋ ์ฐจ์ด๊ฐ ๋ฐ์ํ์ต๋๋ค. ํ๋ฃจ ์์ต ๊ฑด์ ๋ก๊ทธ๊ฐ ์์์ง๋ ํ์ดํ๋ผ์ธ์์ ์ด์ ๋์ Latency๋ ๊ณง ์์คํ ๋ง๋น๋ฅผ ์๋ฏธํฉ๋๋ค. ์ ์ด๋ฐ ์ฐจ์ด๊ฐ ๋ฐ์ํ ๊น์?
2) ์๋์ ์์ธ : Sequential vs Parallel
๊ฐ์ฅ ํฐ ์ด์ ๋ ๋ชจ๋ธ์ ์๋๋ฐฉ์์ ์์ต๋๋ค.
LLM (Autoregressive): "๋๋" โ "์์ธ์" โ "์ฐ๋ค" ์ฒ๋ผ ๋จ์ด๋ฅผ ํ๋์ฉ ์์ฐจ์ ์ผ๋ก ์์ฑ(Sequential Generation)ํฉ๋๋ค. 1,000์๋ฅผ ์ถ๋ ฅํ๋ ค๋ฉด ๋ชจ๋ธ์ 1,000๋ฒ์ ์ถ๋ก ์ ๋ฐ๋ณตํด์ผ ํฉ๋๋ค. ๋ฌธ์๊ฐ ๊ธธ์ด์ง์๋ก ์๊ฐ์ ์ถ๋ ฅ ํ ํฐ ์์ ๋น๋กํ์ฌ ๋์ด๋ฉ๋๋ค.
NER (Encoder-only): ๋ฐ๋ฉด BERT ๊ธฐ๋ฐ ๋ชจ๋ธ์ ๋ฌธ์ฅ ์ ์ฒด๋ฅผ ํ ๋ฒ์ ๋ด ๋๋ค. ์ ๋ ฅ๋ ํ ์คํธ๊ฐ ๊ธธ์ด๋ ์์น ์๋ฒ ๋ฉ(Positional Embedding) ์ฌ์ด์ฆ ๋ด์ ๋ชจ๋ ํ ํฐ์ ๋ผ๋ฒจ์ ๋จ ํ ๋ฒ์ ์ฐ์ฐ์ผ๋ก ๋์์ ๊ณ์ฐํฉ๋๋ค.
3) ์ฒด๊ธ์ ์ฐจ์ด : ์๋ฐฑ M vs ์๋ฐฑ B
๋ชจ๋ธ์ ํฌ๊ธฐ, ์ฆ ํ๋ผ๋ฏธํฐ ์๋ ๋ฐฐํฌ(Deployment) ํ๊ฒฝ์ ๊ฒฐ์ ์ง์ต๋๋ค.
LLM (์์ญ~์์ฒ์ต ํ๋ผ๋ฏธํฐ): ์ต์ ์์ญ GB์ VRAM์ด ํ์ํ๋ฉฐ, ๊ณ ์ฑ๋ฅ GPU ์๋ฒ๊ฐ ํ์์ ์ ๋๋ค.
NER (์์ต ํ๋ผ๋ฏธํฐ): BERT-base ๊ธฐ์ค ์ฝ 110M๊ฐ์ ๋ถ๊ณผํฉ๋๋ค.
๊ธ์ต๊ถ์ On-premise ํ๊ฒฝ์ ์ปดํจํ ๋ฆฌ์์ค๊ฐ ์ ํ์ ์ ๋๋ค. ๋ฅ๋ฌ๋ ๋ชจ๋ธ ํ๋๋ฅผ ๋์ฐ๊ธฐ ์ํด ์์ฒ๋ง์์ง๋ฆฌ GPU ์๋ฒ๋ฅผ ์ฆ์คํ๋ ๊ฒ์ ๋น์ฉ ํจ์จ์ฑ ์ธก๋ฉด์์ ๋ถ๊ฐ๋ฅ์ ๊ฐ๊น์ต๋๋ค. ๋ฐ๋ฉด ๊ฒฝ๋ํ๋ NER ๋ชจ๋ธ์ ๊ฐ๋ฒผ์ด GPU๋ง์ผ๋ก๋ ์ถฉ๋ถํ ์ด์ ๊ฐ๋ฅํฉ๋๋ค.
4) API์ ๋๋ ๋ง : ๋ณด์๊ณผ ๋น์ฉ
"๊ทธ๋ผ ์๋ฒ ์ฆ์ค ์์ด ์ธ๋ถ API๋ฅผ ์ฐ๋ฉด ๋์ง ์๋?"๋ผ๊ณ ๋ฐ๋ฌธํ ์ ์์ต๋๋ค. ํ์ง๋ง ์ฌ๊ธฐ์ ๋ ๊ฐ์ง ์ฅ๋ฒฝ์ด ์กด์ฌํฉ๋๋ค.
๋ณด์: ๊ธ์ต ๋ฐ์ดํฐ์๋ ๋ฏผ๊ฐํ ๊ฐ์ธ์ ๋ณด๊ฐ ํฌํจ๋์ด ์์ต๋๋ค. ์ด๋ฅผ ๋ง์คํนํ๊ธฐ ์ํด ์ธ๋ถ ์๋ฒ(OpenAI ๋ฑ)๋ก ์๋ณธ ๋ฐ์ดํฐ๋ฅผ ์ ์กํ๋ ๊ฒ์ ๊ทธ ์์ฒด๋ก ๋ณด์ ๊ท์ ์๋ฐ์ ๋๋ค.
๋น์ฉ: API๋ ํ ํฐ ๋จ์๋ก ๊ณผ๊ธ๋ฉ๋๋ค. ํ ๋ผ๋ฐ์ดํธ(TB) ๋จ์์ ๋ก๊ทธ๋ฅผ ๋งค์ผ ์ฒ๋ฆฌํ๋ค๋ฉด, ์ฒ๋ฌธํ์ ์ธ API ๋น์ฉ์ด ๋ฐ์ํ๊ฒ ๋ฉ๋๋ค.
์ ํด์ง ๊ฐ์ธ์ ๋ณด๋ฅผ ๋น ๋ฅด๊ณ ๊ฐ๋ณ๊ฒ ์ฐพ์๋ด๋ ๋ณธ ํ๋ก์ ํธ์ ๋ชฉ์ ์๋ ๋๋ฆฌ๊ณ ๋ฌด๊ฑฐ์ด LLM๋ณด๋ค ํต์ ๊ฐ๋ฅํ BERT-CRF ๋ชจ๋ธ์ ์ฌ์ฉํ ๊ฒ์ด ์ฃผ์ด์ง ์ ์ฝ ์ฌํญ ์์์ ๋ฌธ์ ๋ฅผ ๊ฐ์ฅ ์ ํด๊ฒฐํ ์ ์๋ ํฉ๋ฆฌ์ ์ธ ์ ํ์ด์์ต๋๋ค.
์ ๋ ผ์ ๋ณด์ ๊ธฐ์ , ๊ทธ๋ฆฌ๊ณ ์ฐ๋ฆฌ๊ฐ ๋์๊ฐ๋ ๋ฐฉํฅ
์ง๊ธ๊น์ง ์ ๋ ผ์ ๊ฐ์ธ์ ๋ณด ๋ง์คํน ์์คํ ๊ตฌ์ถ ์ฌ์ ์ ๊ณต์ ํด ๋๋ ธ์ต๋๋ค. ๋ด๋ถ ๋ฐ์ดํฐ ์ ๊ทผ์ด ์ ํ๋ ํ๊ฒฝ์์ '์ ๋ก๋ฒ ์ด์ค ๋ฐ์ดํฐ ๊ตฌ์ถ'์ ์ํํ๊ณ , NER ํ์คํฌ์ ์ค์ํ ๋ฌธ์ ์ธ 'ํด๋์ค ๋ถ๊ท ํ'์ ๋ค์ํ ์ ๋ต์ผ๋ก ํด๊ฒฐํ๋ฉฐ, LLM๋ณด๋ค ๋น ๋ฅธ ์ค์๊ฐ ์ฒ๋ฆฌ๋ฅผ ๋ฌ์ฑํ๊ธฐ๊น์ง์ ๊ณผ์ ์ ๋ค๋ค์ต๋๋ค.
์ด ๊ณผ์ ์์ ๊ฐ๋ฐ๋ ๊ฐ์ธ์ ๋ณด ๋ง์คํน ๊ธฐ์ ์ ์ค์ ์ ๋ ผ์ ์ ๋ ธ์ค(GenOS) ํ๋ซํผ๊ณผ ์์์ด์ ํธ(OneAgent)์ ํต์ฌ ๋ณด์ ๋ชจ๋๋ก ํ์ฌ๋์ด ๊ธ์ต๊ถ ๋ฐ ๊ณต๊ณต๊ธฐ๊ด ๊ณ ๊ฐ์ฌ์์ ํ๋ฐํ ์ด์๋๊ณ ์์ต๋๋ค.
์ ๋ ธ์ค: ์์ฑํ AI ํ๋ซํผ ๋ด์์ ๋ฐ์ดํฐ๊ฐ LLM์ผ๋ก ์ ๋ ฅ๋๊ธฐ ์ , ํน์ RAG ํ์ดํ๋ผ์ธ์์ ๋ฌธ์๋ฅผ ์ฒ๋ฆฌํ ๋ ๊ฐ์ธ์ ๋ณด๋ฅผ ์๋์ผ๋ก ํ์งยท๋ง์คํนํ๋ ์์ ์ฅ์น์ ๋๋ค.
์์์ด์ ํธ: AI ์์ด์ ํธ๊ฐ ๊ณ ๊ฐ ๋ฐ์ดํฐ๋ฅผ ๋ค๋ฃจ๋ ๊ณผ์ ์์ ๋ฏผ๊ฐ ์ ๋ณด๊ฐ ์ธ๋ถ๋ก ์ ์ถ๋์ง ์๋๋ก ์์ด์ ํธ ๋ ๋ฒจ์ PII ํํฐ๋ง์ ๊ธฐ๋ณธ ์ ๊ณตํฉ๋๋ค.
๋ ๋์ ์์ค์ ๋ฐ์ดํฐ ๋ณด์์ ์ํ ์ ๋ ผ์ ๊ณ ๋ฏผ
์ ๋ ผ์ ์ฌ๊ธฐ์ ๋ ๋์ ์ฐ์ ๋ณ(์๋ฃ, ๋ฒ๋ฅ , ๊ณต๊ณต ๋ฑ) ํนํ ๋ณด์ ๋ชจ๋ธ๋ก์ ํ์ฅ์ ์ค๋นํ๊ณ ์์ต๋๋ค. ๋ํ, ์จํ๋ ๋ฏธ์ค ํ๊ฒฝ์ ์ต์ ํ๋ ๋ชจ๋ธ ๊ฒฝ๋ํ์ ์ ๊ท ๊ฐ์ธ์ ๋ณด ์ ํ์ ์ฆ๊ฐ ๋์ํ๋ ์ ๋ฐ์ดํธ ์ฒด๊ณ๋ฅผ ๊ณ ๋ํํ๊ณ ์์ต๋๋ค.
LLM์ด ์ฐ์ ํ์ฅ์ ๋ณดํธํ๋๋ ์๋์, "AI๊ฐ ๋ค๋ฃจ๋ ๋ชจ๋ ๋ฐ์ดํฐ ๊ฒฝ๋ก๋ ๊ธฐ๋ณธ์ ์ผ๋ก ๋ง์คํน๋์ด์ผ ํ๋ค(Security by Default)"๋ ๊ฒ์ด ์ ๋ ผ์ ์ฒ ํ์ ๋๋ค. ๊ฐ์ธ์ ๋ณด ๋ณดํธ๊ฐ ์ ํ์ด ์๋ ํ์ ๊ตฌ์ฑ ์์๊ฐ ๋๋๋ก, ์ ๋ ผ์ ๊ธฐ์ ๊ฐ๋ฐ๊ณผ ๋๋ถ์ด ์์ ํ AI ํ์ฉ ํ์ค์ ์๋ฆฝํ๋ ๋ฐ ์์ฅ์๊ฒ ์ต๋๋ค.
์ถ์ฒ
[1] Cheng, J., et al. 2019. "Entity linking for Chinese short texts based on BERT and entity name embeddings." China Conference on Knowledge Graph and Semantic Computing (CCKS). https://conference.bj.bcebos.com/ccks2019/eval/webpage/pdfs/eval_paper_2_1.pdf
[2] AI Hub. 2024. โ๋ฏผ๊ฐ ๋ฏผ์ ์๋ด LLM ์ฌ์ ํ์ต ๋ฐ Instruction Tuning ๋ฐ์ดํฐโ. https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&dataSetSn=71844
[3] Aghakasiri, Kiana, et al. 2025. "Not What the Doctor Ordered: Surveying LLM-based De-identification and Quantifying Clinical Information Loss." Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing. https://arxiv.org/abs/2509.14464
[4] Savkin, Maksim, Timur Ionov, and Vasily Konovalov. 2025. "SPY: Enhancing Privacy with Synthetic PII Detection Dataset." Proceedings of the 2025 Conference of the Nations of the Americas Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 4: Student Research Workshop). https://aclanthology.org/2025.naacl-srw.23/
[5] Deuรer, Tobias, et al. 2025. "Resource-Efficient Anonymization of Textual Data via Knowledge Distillation from Large Language Models." Proceedings of the 31st International Conference on Computational Linguistics: Industry Track. https://aclanthology.org/2025.coling-industry.20/
[6] Zaratiana, Urchade, et al. 2024. "Gliner: Generalist model for named entity recognition using bidirectional transformer." Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers). https://aclanthology.org/2024.naacl-long.300/
[7] Hahm, Sungen, et al. 2025. "Thunder-DeID: Accurate and Efficient De-identification Framework for Korean Court Judgments." arXiv preprint arXiv:2506.15266. https://aclanthology.org/2025.findings-emnlp.682/


