๊ธˆ์œต๊ถŒ ๊ฐœ์ธ ์ •๋ณด ๋ณดํ˜ธ๋ฅผ ์œ„ํ•œ ์ œ๋…ผ์˜ ๋งˆ์Šคํ‚น ๋ชจ๋ธ ๊ตฌ์ถ• ์ „๋žต

๊ธˆ์œต๊ถŒ ๊ฐœ์ธ ์ •๋ณด ๋ณดํ˜ธ๋ฅผ ์œ„ํ•œ ์ œ๋…ผ์˜ ๋งˆ์Šคํ‚น ๋ชจ๋ธ ๊ตฌ์ถ• ์ „๋žต

Tech

Feb 12, 2026

์ €์ž

โ€”

R&D ํŒŒํŠธ

ํ”„๋กค๋กœ๊ทธ: ๊ฐœ์ธ์ •๋ณด ๋ณดํ˜ธ๋Š” ์„ ํƒ์ด ์•„๋‹Œ ํ•„์ˆ˜๋‹ค

ํ”„๋กค๋กœ๊ทธ: ๊ฐœ์ธ์ •๋ณด ๋ณดํ˜ธ๋Š” ์„ ํƒ์ด ์•„๋‹Œ ํ•„์ˆ˜๋‹ค

๋ฐ”์•ผํ๋กœ '๋ฐ์ดํ„ฐ์˜ ์‹œ๋Œ€'์ž…๋‹ˆ๋‹ค. ์ตœ๊ทผ ๊ธฐ์—…๋“ค์€ ๋ฐฉ๋Œ€ํ•œ ๋น„์ •ํ˜• ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•˜์—ฌ ์„œ๋น„์Šค ๊ฐœ์„ , ์‚ฌ์šฉ์ž ํ–‰๋™ ๋ถ„์„, ์ž๋™ํ™” ๋“ฑ ๋‹ค์–‘ํ•œ ๊ฐ€์น˜๋ฅผ ์ฐฝ์ถœํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

ํ•˜์ง€๋งŒ ์ด๋Ÿฌํ•œ ๋ฐ์ดํ„ฐ์˜ ํ™์ˆ˜ ์†์—๋Š” ์ด๋ฆ„, ์ฃผ๋ฏผ๋“ฑ๋ก๋ฒˆํ˜ธ, ๊ณ„์ขŒ๋ฒˆํ˜ธ, ์ƒ์„ธ ์ฃผ์†Œ ๋“ฑ ๋ฏผ๊ฐํ•œ ๊ฐœ์ธ์ •๋ณด(PII, Personally Identifiable Information)๊ฐ€ ํŒŒํŽธํ™”๋˜์–ด ์„ž์—ฌ ์žˆ๋‹ค๋Š” ์น˜๋ช…์ ์ธ ๋ฆฌ์Šคํฌ๊ฐ€ ๋„์‚ฌ๋ฆฌ๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

๋ฌธ์ œ๋Š” ์ด๋Ÿฌํ•œ ์ •๋ณด๋“ค์ด ๋ณ„๋„์˜ ๋ณดํ˜ธ ์žฅ์น˜ ์—†์ด ์‹œ์Šคํ…œ์— ๋…ธ์ถœ๋˜๊ฑฐ๋‚˜ ์ฒ˜๋ฆฌ๋  ๋•Œ ๋ฐœ์ƒํ•ฉ๋‹ˆ๋‹ค. ์‹ค์ œ๋กœ 2025๋…„ ํ•œ ํ•ด์—๋งŒ SKํ…”๋ ˆ์ฝค(2,324๋งŒ ๋ช…), ๋กฏ๋ฐ์นด๋“œ(297๋งŒ ๋ช…), ์ฟ ํŒก(3,370๋งŒ ๋ช…) ๋“ฑ ๊ตญ๋‚ด ์œ ์ˆ˜ ๊ธฐ์—…๋“ค์—์„œ ๋Œ€๊ทœ๋ชจ ๊ฐœ์ธ์ •๋ณด ์œ ์ถœ ์‚ฌ๊ณ ๊ฐ€ ์ž‡๋”ฐ๋ผ ๋ฐœ์ƒํ–ˆ์Šต๋‹ˆ๋‹ค. ๋Œ€ํ•™๊ณผ ๋ณ‘์› ๋“ฑ ๊ณต๊ณต๊ธฐ๊ด€์˜ ๋ณด์•ˆ ์‚ฌ๊ณ ๊นŒ์ง€ ๋”ํ•ด์ง€๋ฉฐ, ๊ฐœ์ธ์ •๋ณด ๋ณดํ˜ธ์— ๋Œ€ํ•œ ์‚ฌํšŒ์  ์š”๊ตฌ์™€ ๋ฒ•์  ๊ทœ์ œ๋Š” ๊ทธ ์–ด๋А ๋•Œ๋ณด๋‹ค ๊ฐ•๋ ฅํ•ด์ง€๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

์ด์ œ๋Š” ์‚ฌ๊ณ  ๋ฐœ์ƒ ํ›„์˜ ๋Œ€์ฒ˜๋ณด๋‹ค, AI๊ฐ€ ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ์ „ ๊ณผ์ •์—์„œ ๊ฐœ์ธ์ •๋ณด๋ฅผ ์›์ฒœ์ ์œผ๋กœ ํƒ์ง€ํ•˜๊ณ  ๋งˆ์Šคํ‚นํ•˜๋Š” ์กฐ์น˜๋Š” ํ•„์ˆ˜์ž…๋‹ˆ๋‹ค. ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜์˜ ๋ชจ๋“  ์„œ๋น„์Šค์—์„œ ๊ฐœ์ธ์ •๋ณด ๋ณดํ˜ธ๋Š” ๋น„์ฆˆ๋‹ˆ์Šค์˜ ๊ธฐ๋ณธ์ด๋ฉฐ, ํŠนํžˆ ๊ธˆ์œต๊ถŒ์ฒ˜๋Ÿผ ๋ฏผ๊ฐํ•œ ์ •๋ณด๋ฅผ ๋‹ค๋ฃจ๋Š” ๋ถ„์•ผ์—์„œ๋Š” AI ๋ชจ๋ธ๋กœ ์œ ์ž…๋˜๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์ „์— ์‹๋ณ„ํ•˜๊ณ  ๋งˆ์Šคํ‚นํ•˜๋Š” ์ฒด๊ณ„๊ฐ€ ๋ฐ˜๋“œ์‹œ ๋’ท๋ฐ›์นจ๋˜์–ด์•ผ ํ•ฉ๋‹ˆ๋‹ค.

๊ธฐ์กด์˜ ๋‹จ์ˆœ ํ‚ค์›Œ๋“œ ๋งค์นญ์ด๋‚˜ ์ •๊ทœ์‹ ๋ฐฉ๋ฒ•์€ ๋ฌธ๋งฅ์„ ๊ณ ๋ คํ•˜์ง€ ๋ชปํ•ด ์ •ํ˜•ํ™”๋œ ํŒจํ„ด๋งŒ ํƒ์ง€ํ•˜๋Š” ํ•œ๊ณ„๊ฐ€ ๋ช…ํ™•ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด, ์ตœ๊ทผ ๋น„์•ฝ์ ์œผ๋กœ ๋ฐœ์ „ํ•œ ์ž์—ฐ์–ด์ฒ˜๋ฆฌ ๊ธฐ์ˆ ์€ ๋ฌธ์žฅ์˜ ์˜๋ฏธ๋ฅผ ์ดํ•ดํ•˜์—ฌ "๋ณดํ˜ธํ•ด์•ผ ํ•  ์ •๋ณด์ธ์ง€"๋ฅผ ์Šค์Šค๋กœ ํŒ๋‹จํ•˜๋Š” ์ˆ˜์ค€์— ์ด๋ฅด๋ €์Šต๋‹ˆ๋‹ค. ๋ณธ ํฌ์ŠคํŒ…์—์„œ๋Š” ์ œ๋…ผ์ด ์ด๋Ÿฌํ•œ ๊ธฐ์ˆ ์  ๋ฐฐ๊ฒฝ์„ ๋ฐ”ํƒ•์œผ๋กœ, BERT-CRF ๊ธฐ๋ฐ˜์˜ ๊ฐœ์ฒด๋ช… ์ธ์‹ ๋ชจ๋ธ์„ ํ™œ์šฉํ•ด ๊ฐœ์ธ์ •๋ณด ๋งˆ์Šคํ‚น ๋ชจ๋ธ์„ ๊ตฌ์ถ•ํ•œ ๊ณผ์ •์„ ๊ณต์œ ํ•˜๊ณ ์ž ํ•ฉ๋‹ˆ๋‹ค.

๋‹จ์ˆœํ•œ ๋ชจ๋ธ ์ ์šฉ๊ธฐ๋ฅผ ๋„˜์–ด, ์‹ค๋ฌด ํ™˜๊ฒฝ์—์„œ ๋งˆ์ฃผํ•œ ๊ณ ๋ฏผ๋“ค์„ ์ค‘์ ์ ์œผ๋กœ ๋‹ค๋ฃน๋‹ˆ๋‹ค.

  • Zero-base Data Generation: ์™ธ๋ถ€ ๋ฐ์ดํ„ฐ ๋ฐ˜์ž…์ด ๋ถˆ๊ฐ€๋Šฅํ•œ ๋‚ด๋ถ€๋ง(On-premise) ํ™˜๊ฒฝ์—์„œ ์–ด๋–ป๊ฒŒ ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ–ˆ๋Š”๊ฐ€?

  • Mitigating Class Imbalance: ์ „์ฒด ํ† ํฐ์˜ 90%๊ฐ€ 'O(Outside)'์ธ ์ƒํ™ฉ์—์„œ ํฌ์†Œํ•œ ๊ฐœ์ธ์ •๋ณด ํด๋ž˜์Šค ๋ถˆ๊ท ํ˜•์„ ์–ด๋–ป๊ฒŒ ํ•ด๊ฒฐํ–ˆ๋Š”๊ฐ€?

  • Performance & Efficiency: ์ •๊ทœํ‘œํ˜„์‹ ๋Œ€๋น„ ์–ผ๋งˆ๋‚˜ ์ •ํ™•ํ•˜๋ฉฐ, LLM ๋Œ€๋น„ ์–ผ๋งˆ๋‚˜ ํšจ์œจ์ ์ธ๊ฐ€?

์•ˆ์ „ํ•œ ๋ฐ์ดํ„ฐ ํ™œ์šฉ์„ ์œ„ํ•œ ๊ธฐ์ˆ ์  ์—ฌ์ •์„ ์ง€๊ธˆ๋ถ€ํ„ฐ ์‹œ์ž‘ํ•ฉ๋‹ˆ๋‹ค.

1. ์šฐ๋ฆฌ๋Š” ์ด๋ ‡๊ฒŒ ๋งŒ๋“ค์—ˆ๋‹ค: ๊ฐœ์ธ์ •๋ณด ๋งˆ์Šคํ‚น ๊ตฌํ˜„ ๋ฐฉ๋ฒ•

1. ์šฐ๋ฆฌ๋Š” ์ด๋ ‡๊ฒŒ ๋งŒ๋“ค์—ˆ๋‹ค: ๊ฐœ์ธ์ •๋ณด ๋งˆ์Šคํ‚น ๊ตฌํ˜„ ๋ฐฉ๋ฒ•

์ด ์žฅ์—์„œ๋Š” ๊ฐœ์ธ์ •๋ณด ๋งˆ์Šคํ‚น ๋ชจ๋ธ์„ ๊ตฌํ˜„ํ•˜๊ธฐ ์œ„ํ•œ ํ•ต์‹ฌ ๊ธฐ์ˆ ์ธ ๊ฐœ์ฒด๋ช… ์ธ์‹๊ณผ BIO ํƒœ๊น…์˜ ๊ฐœ๋…์„ ์งš์–ด๋ณด๊ณ , ๋ฌธ๋งฅ์„ ์ดํ•ดํ•˜๋Š” BERT(Bidirectional Encoder Representations from Transformers)์™€ ๋ฌธ๋ฒ•์  ์˜ค๋ฅ˜๋ฅผ ๊ต์ •ํ•˜๋Š” CRF(Conditional Random Field)๊ฐ€ ์–ด๋–ป๊ฒŒ ๊ฒฐํ•ฉ๋˜์–ด ์ž‘๋™ํ•˜๋Š”์ง€ ์ „์ฒด์ ์ธ ์•„ํ‚คํ…์ฒ˜๋ฅผ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค.

1.1 ๊ฐœ์ฒด๋ช… ์ธ์‹๊ณผ BIO ํƒœ๊ทธ๋ž€ ๋ฌด์—‡์ผ๊นŒ?

1.1 ๊ฐœ์ฒด๋ช… ์ธ์‹๊ณผ BIO ํƒœ๊ทธ๋ž€ ๋ฌด์—‡์ผ๊นŒ?

๊ฐœ์ฒด๋ช… ์ธ์‹(Named Entity Recognition, NER)์€ ๋ฌธ์žฅ ๋‚ด์—์„œ ํŠน์ •ํ•œ ์˜๋ฏธ๋ฅผ ๊ฐ–๋Š” ๋‹จ์–ด๋ฅผ ์ฐพ์•„๋‚ด๊ณ , ์ด๋ฅผ ์‚ฌ์ „์— ์ •์˜๋œ ๋ฒ”์ฃผ(์ธ๋ฌผ, ์žฅ์†Œ, ๋‚ ์งœ ๋“ฑ)๋กœ ๋ถ„๋ฅ˜ํ•˜๋Š” ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ ๊ธฐ์ˆ ์ž…๋‹ˆ๋‹ค. ๊ธˆ์œต, ์˜๋ฃŒ, ๋ฒ•๋ฅ  ๋“ฑ ํŠน์ˆ˜ ๋„๋ฉ”์ธ์—์„œ๋Š” ์ผ๋ฐ˜์ ์ธ ๋ฒ”์ฃผ ์™ธ์—๋„ '๊ณ„์ขŒ๋ฒˆํ˜ธ', '๊ฐ€๋งน์ ๋ช…' ๋“ฑ ๋„๋ฉ”์ธ ํŠนํ™” ๊ฐœ์ฒด๋ช…์„ ์ •์˜ํ•˜์—ฌ ๋ฏผ๊ฐ ์ •๋ณด๋ฅผ ์‹๋ณ„ํ•˜๋Š” ๋ฐ ํ™œ์šฉํ•ฉ๋‹ˆ๋‹ค.


์ด๋ฏธ์ง€ 1. ๊ฐœ์ฒด๋ช… ์ธ์‹(NER)์„ ํ™œ์šฉํ•œ ๋ฌธ์žฅ ๋‚ด ์ฃผ์š” ์ •๋ณด ์ถ”์ถœ ์˜ˆ์‹œ. ์ถœ์ฒ˜: ์ œ๋…ผ

์˜ˆ๋ฅผ ๋“ค์–ด, ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๊ณ ๊ฐ์˜ ๋ฌธ์˜ ๋‚ด์—ญ์ด ์žˆ๋‹ค๊ณ  ๊ฐ€์ •ํ•ด ๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.

โ€œ๊น€์ œ๋…ผ ๊ณ ๊ฐ๋‹˜, 9์›” 17์ผ์— ์Šคํƒ€๋ฒ…์Šค ๊ฐ•๋‚จ์—ญ์ ์—์„œ ์ด์ฒœ์น ๋ฐฑ ์› ๊ฒฐ์ œ๊ฐ€ ํ™•์ธ๋ฉ๋‹ˆ๋‹ค. ๋ณธ์ธ์ด ๊ฒฐ์ œํ•œ ์‚ฌ๋ก€๊ฐ€ ๋งž์œผ์‹ญ๋‹ˆ๊นŒ?โ€

NER ๋ชจ๋ธ์€ ์ด ๋ฌธ์žฅ์„ ๋ถ„์„ํ•˜์—ฌ ์•„๋ž˜์™€ ๊ฐ™์ด ์˜๋ฏธ ์žˆ๋Š” ์ •๋ณด๋ฅผ ์ถ”์ถœํ•ฉ๋‹ˆ๋‹ค.

  • "๊น€์ œ๋…ผ" โ†’ [์ด๋ฆ„],

  • "์Šคํƒ€๋ฒ…์Šค ๊ฐ•๋‚จ์—ญ์ " โ†’ [๊ฐ€๋งน์ ๋ช…],

  • "์ด์ฒœ์น ๋ฐฑ ์›" โ†’ [๊ฒฐ์ œ๊ธˆ์•ก]



BIO ํƒœ๊ทธ ์ฒด๊ณ„: ์ •๋‹ต์„ ์•Œ๋ ค์ฃผ๋Š” ์•ฝ์†

๋ชจ๋ธ์ด "์Šคํƒ€๋ฒ…์Šค ๊ฐ•๋‚จ์—ญ์ "์ด ํ•˜๋‚˜์˜ ๋‹จ์–ด๊ฐ€ ์•„๋‹ˆ๋ผ ์—ฌ๋Ÿฌ ํ† ํฐ(Token)์œผ๋กœ ์ด๋ฃจ์–ด์ง„ ๊ธด ๊ฐœ์ฒด๋ช…์ž„์„ ์•Œ๊ฒŒ ํ•˜๋ ค๋ฉด ์–ด๋–ป๊ฒŒ ํ•ด์•ผ ํ• ๊นŒ์š”? ์ด๋•Œ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์ด BIO ํƒœ๊น…(BIO Tagging)์ž…๋‹ˆ๋‹ค. BIO๋Š” ์„ธ ๊ฐ€์ง€ ํƒœ๊ทธ๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค:

  • B (Begin): ๊ฐœ์ฒด๋ช…์˜ ์‹œ์ž‘ ํ† ํฐ

  • I (Inside): ๊ฐœ์ฒด๋ช…์˜ ๋‚ด๋ถ€์— ํฌํ•จ๋œ ํ† ํฐ

  • O (Outside): ๊ฐœ์ฒด๋ช…์ด ์•„๋‹Œ ์ผ๋ฐ˜ ํ† ํฐ

์ด๋ฏธ์ง€ 2. BIO ํƒœ๊ทธ ์ฒด๊ณ„. ์ถœ์ฒ˜: ์ œ๋…ผ

์ด์ฒ˜๋Ÿผ BIO ํƒœ๊ทธ๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด ๋ชจ๋ธ์€ "์—ฌ๊ธฐ์„œ๋ถ€ํ„ฐ ์—ฌ๊ธฐ๊นŒ์ง€๊ฐ€ ํ•˜๋‚˜์˜ ๊ฐ€๋งน์ ๋ช…์ด๋‹ค"๋ผ๋Š” ๊ฒฝ๊ณ„ ์ •๋ณด๋ฅผ ๋ช…ํ™•ํ•˜๊ฒŒ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

1.2 BERT-CRF ๊ธฐ๋ฐ˜ ๊ฐœ์ฒด๋ช… ์ธ์‹ ๋ชจ๋ธ ํ•™์Šตํ•˜๊ธฐ

1.2 BERT-CRF ๊ธฐ๋ฐ˜ ๊ฐœ์ฒด๋ช… ์ธ์‹ ๋ชจ๋ธ ํ•™์Šตํ•˜๊ธฐ

์ €ํฌ๋Š” ํ•œ๊ตญ์–ด ๋ฌธ๋งฅ ์ดํ•ด์— ํŠนํ™”๋œ KcBERT(Korean comments BERT)๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ, ์‹œํ€€์Šค(์ˆœ์„œ)์˜ ์ผ๊ด€์„ฑ์„ ์žก์•„์ฃผ๋Š” CRF ๋ ˆ์ด์–ด๋ฅผ ๊ฒฐํ•ฉํ•œ ์•„ํ‚คํ…์ฒ˜๋ฅผ ์ฑ„ํƒํ–ˆ์Šต๋‹ˆ๋‹ค.



Why BERT? (๋ฌธ๋งฅ์„ ์ฝ๋Š” ๋ˆˆ)

BERT๋Š” ๋Œ€๊ทœ๋ชจ ํ…์ŠคํŠธ๋กœ ์‚ฌ์ „ ํ•™์Šต(Pre-training)๋œ ์–ธ์–ด ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. ์–‘๋ฐฉํ–ฅ(Bidirectional)์œผ๋กœ ๋ฌธ๋งฅ์„ ํŒŒ์•…ํ•˜๊ธฐ ๋•Œ๋ฌธ์—, ๊ฐ™์€ ๋‹จ์–ด๋ผ๋„ ์ฃผ๋ณ€ ๋‹จ์–ด์— ๋”ฐ๋ผ ์˜๋ฏธ๊ฐ€ ๋‹ฌ๋ผ์ง€๋Š” ๊ฒƒ์„ ๊ตฌ๋ถ„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  • ์˜ˆ: "๋ฐฐ" โ†’ ๋จน๋Š” ๋ฐฐ์ธ์ง€, ํƒ€๋Š” ๋ฐฐ์ธ์ง€ ๊ตฌ๋ถ„

  • ๋‰ด์Šค ๋Œ“๊ธ€ ๋“ฑ์œผ๋กœ ํ•™์Šต๋˜์–ด ๊ตฌ์–ด์ฒด์™€ ์‹ ์กฐ์–ด์— ๊ฐ•ํ•œ KcBERT๋ฅผ ์‚ฌ์šฉ



Why CRF? (๋ฌธ๋ฒ•์„ ์ง€ํ‚ค๋Š” ๊ต์ •์ž)

BERT๋งŒ ์‚ฌ์šฉํ•ด๋„ ๊ฐ ํ† ํฐ์„ ๋ถ„๋ฅ˜ํ•  ์ˆ˜ ์žˆ์ง€๋งŒ, ํ•œ ๊ฐ€์ง€ ์•ฝ์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ๊ฐ ํ† ํฐ์„ ๋…๋ฆฝ์ ์œผ๋กœ ์˜ˆ์ธกํ•˜๋‹ค ๋ณด๋‹ˆ, ๋ฌธ๋งฅ์ƒ ๋ง์ด ์•ˆ ๋˜๋Š” ํƒœ๊น… ์‹ค์ˆ˜๋ฅผ ํ•  ๋•Œ๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค.

  • BERT์˜ ์‹ค์ˆ˜ ์˜ˆ์‹œ: ์ด๋ฆ„_B ๋‹ค์Œ์— ๋œฌ๊ธˆ์—†์ด ์ฃผ์†Œ_I๊ฐ€ ์˜จ๋‹ค๊ณ  ์˜ˆ์ธก. (์ด๋ฆ„์ด ์‹œ์ž‘๋๋Š”๋ฐ ๊ฐ‘์ž๊ธฐ ์ฃผ์†Œ์˜ ์ค‘๊ฐ„์ด ๋‚˜์˜ฌ ์ˆ˜๋Š” ์—†์Œ)

์ด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด CRF๋ฅผ ๋งˆ์ง€๋ง‰ ์ธต์— ์ถ”๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค. CRF๋Š” ํ† ํฐ ํ•˜๋‚˜ํ•˜๋‚˜๋งŒ ๋ณด๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ์•ž๋’ค ํ† ํฐ ๊ฐ„์˜ ๊ด€๊ณ„(Transition Probability)๋ฅผ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค.

  • ํ•™์Šต ๋‚ด์šฉ: "์ด๋ฆ„_B ๋’ค์—๋Š” ์ด๋ฆ„_I๊ฐ€ ์˜ฌ ํ™•๋ฅ ์ด ๋†’๊ณ , ์ฃผ์†Œ_I๊ฐ€ ์˜ฌ ํ™•๋ฅ ์€ 0์— ๊ฐ€๊น๋‹ค."

  • ํšจ๊ณผ: ๋ฌธ์žฅ ์ „์ฒด๋ฅผ ๋ณด์•˜์„ ๋•Œ ๊ฐ€์žฅ ์ž์—ฐ์Šค๋Ÿฝ๊ณ  ์ผ๊ด€์„ฑ ์žˆ๋Š” ํƒœ๊ทธ ์‹œํ€€์Šค๋ฅผ ์ฐพ์•„์ค๋‹ˆ๋‹ค.

์ด๋ฏธ์ง€ 3. BERT-CRF ๊ธฐ๋ฐ˜ ๊ฐœ์ฒด๋ช… ์ธ์‹ ๋ชจ๋ธ์˜ ์ „์ฒด ์•„ํ‚คํ…์ฒ˜ ๋ฐ ํƒœ๊น… ํ”„๋กœ์„ธ์Šค(์ œ๋…ผ ์žฌ๊ตฌ์„ฑ).
์ถœ์ฒ˜: Cheng, J., et al. [1]

์ตœ์ข…์ ์ธ ๋ชจ๋ธ์˜ ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ ํ๋ฆ„์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.
1. ์ž…๋ ฅ ๋ฌธ์žฅ์„ BERT ํ† ํฌ๋‚˜์ด์ €๋กœ ๋ถ„์ ˆํ•œ ํ›„, ๊ฐ ํ† ํฐ์„ ์ž„๋ฒ ๋”ฉ ๋ฒกํ„ฐ๋กœ ๋ณ€ํ™˜ํ•ฉ๋‹ˆ๋‹ค.
2. BERT๋Š” ์–‘๋ฐฉํ–ฅ ๋ฌธ๋งฅ ์ •๋ณด๋ฅผ ๋ฐ˜์˜ํ•œ ํ† ํฐ ์ž„๋ฒ ๋”ฉ์„ ์ถœ๋ ฅํ•ฉ๋‹ˆ๋‹ค.
3. ์ด ์ž„๋ฒ ๋”ฉ์ด CRF ๋ ˆ์ด์–ด๋กœ ์ „๋‹ฌ๋˜๋ฉฐ, ์‹œํ€€์Šค ์ „์ฒด์˜ ๋ ˆ์ด๋ธ” ์กฐํ•ฉ ์ค‘ ๊ฐ€์žฅ ๋†’์€ ํ™•๋ฅ ์„ ๊ฐ–๋Š” ์‹œํ€€์Šค๋ฅผ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค.

์ด๋ ‡๊ฒŒ ๋ชจ๋ธ ๊ตฌ์กฐ๋ฅผ ์„ค๊ณ„ํ–ˆ์ง€๋งŒ, ๊ณง๋ฐ”๋กœ ๋‚œ๊ด€์— ๋ด‰์ฐฉํ–ˆ์Šต๋‹ˆ๋‹ค. ๋ฐ”๋กœ "๋ณด์•ˆ ๊ทœ์ •์ƒ ์‹ค์ œ ๊ณ ๊ฐ ๋ฐ์ดํ„ฐ๋ฅผ ํ•™์Šต์— ์‚ฌ์šฉํ•  ์ˆ˜ ์—†๋‹ค"๋Š” ์ ์ด์—ˆ์Šต๋‹ˆ๋‹ค. ๋ชจ๋ธ์€ ์ค€๋น„๋˜์—ˆ์ง€๋งŒ, ์ •์ž‘ ๊ฐ€๋ฅด์น  ๊ต๊ณผ์„œ๊ฐ€ ์—†๋Š” ์ƒํ™ฉ. ์ €ํฌ๋Š” ์ด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์ œ๋กœ๋ฒ ์ด์Šค์—์„œ ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•˜๋Š” ์ „๋žต์„ ์ˆ˜๋ฆฝํ•ด์•ผ ํ–ˆ์Šต๋‹ˆ๋‹ค.

1.3 ๋‚ด๋ถ€ ๋ฐ์ดํ„ฐ ์—†์ด ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•˜๊ธฐ

1.3 ๋‚ด๋ถ€ ๋ฐ์ดํ„ฐ ์—†์ด ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•˜๊ธฐ

๊ฐœ๋ฐœ ๊ณผ์ •์—์„œ ๊ฐ€์žฅ ํฐ ์ œ์•ฝ ์ค‘ ํ•˜๋‚˜๋Š” ์‹ค์ œ ๊ธˆ์œต๊ถŒ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•  ์ˆ˜ ์—†์—ˆ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. ์‹ค์ œ ๊ณ ๊ฐ์‚ฌ์˜ ์„œ๋น„์Šค ์ ์šฉ์„ ๋ชฉํ‘œ๋กœ ํ–ˆ์ง€๋งŒ, ๋ณด์•ˆ ์ •์ฑ…์ƒ ๋‚ด๋ถ€ ๋ฐ์ดํ„ฐ ์ ‘๊ทผ์ด ์—„๊ฒฉํžˆ ์ œํ•œ๋˜์–ด ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ๊ฒฐ๊ตญ, ์™„์ „ํžˆ ์™ธ๋ถ€์—์„œ ์ œ๋กœ๋ฒ ์ด์Šค๋กœ ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ๊ตฌ์ถ•ํ•ด์•ผ ํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ฐœ๋ฐœ ๊ณผ์ •์—์„œ ๋งˆ์ฃผํ•œ ์—ฌ๋Ÿฌ ๊ณ ๋ฏผ ์ค‘, ์ด๋ฒˆ ๊ธ€์—์„œ๋Š” ์ œ๋กœ๋ฒ ์ด์Šค ํ™˜๊ฒฝ์—์„œ ๋ฐ์ดํ„ฐ๋ฅผ ์–ด๋–ป๊ฒŒ ๊ตฌ์„ฑํ–ˆ๋Š”์ง€, ๊ทธ๋ฆฌ๊ณ  ํด๋ž˜์Šค ๋ถˆ๊ท ํ˜• ๋ฌธ์ œ์— ์–ด๋–ค ๋ฐฉ์‹์œผ๋กœ ์ ‘๊ทผํ–ˆ๋Š”์ง€๋ฅผ ์ค‘์‹ฌ์œผ๋กœ ์‚ดํŽด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.



1) ์ฒซ ๋ฒˆ์งธ ์‹œ๋„: LLM์„ ํ™œ์šฉํ•œ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ๊ณผ ํ•œ๊ณ„

๋‚ด๋ถ€์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•  ์ˆ˜ ์—†๋Š”๋ฐ ์™ธ๋ถ€์—์„œ ์–ด๋–ป๊ฒŒ ๋ฐ์ดํ„ฐ๋ฅผ ๊ตฌ์ถ•ํ•ด์•ผํ• ๊นŒ? ๋‚ด๋ถ€ ๋ฐ์ดํ„ฐ๋ฅผ ๋ณผ ์ˆ˜ ์—†๋‹ค๋ฉด, ์™ธ๋ถ€์—์„œ ๊ฐ€์žฅ ์œ ์‚ฌํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ๋งŒ๋“ค์–ด๋‚ด์•ผ ํ–ˆ์Šต๋‹ˆ๋‹ค.

๊ฐ€์žฅ ๋จผ์ € ๋– ์˜ค๋ฅธ ์ ‘๊ทผ๋ฒ•์€ ์ตœ๊ทผ ๋น„์•ฝ์ ์ธ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ์ด๋ฃฌ ๊ฑฐ๋Œ€ ์–ธ์–ด ๋ชจ๋ธ(Large Language Model, LLM)์„ ํ™œ์šฉํ•˜๋Š” ๊ฒƒ์ด์—ˆ์Šต๋‹ˆ๋‹ค. LLM์€ ๋ฐฉ๋Œ€ํ•œ ์ง€์‹์„ ํ•™์Šตํ–ˆ๊ธฐ ๋•Œ๋ฌธ์—, ์ ์ ˆํ•œ ํ”„๋กฌํ”„ํŠธ ์—”์ง€๋‹ˆ์–ด๋ง(Prompt Engineering)์„ ๊ฑฐ์น˜๋ฉด ๊ธˆ์œต๊ถŒ ์ƒ๋‹ด ์ƒํ™ฉ์„ ๊ฝค ๊ทธ๋Ÿด์‹ธํ•˜๊ฒŒ ํ‰๋‚ด ๋‚ผ ์ˆ˜ ์žˆ์„ ๊ฒƒ์ด๋ผ ํŒ๋‹จํ–ˆ์Šต๋‹ˆ๋‹ค. ์ €ํฌ๋Š” GPT-5์™€ ๊ฐ™์€ ๋ชจ๋ธ์—๊ฒŒ ํŽ˜๋ฅด์†Œ๋‚˜๋ฅผ ๋ถ€์—ฌํ•˜๊ณ  ๋‹ค์Œ๊ณผ ๊ฐ™์ด ์š”์ฒญํ–ˆ์Šต๋‹ˆ๋‹ค.

โ€œ๋„ˆ๋Š” ์นด๋“œ์‚ฌ ๊ณ ๊ฐ์„ผํ„ฐ์— ๋ฌธ์˜ํ•˜๋Š” ๊ณ ๊ฐ์ด์•ผ. ์ด์ค‘ ๊ฒฐ์ œ๊ฐ€ ๋ฐœ์ƒํ•ด์„œ ํ™˜๋ถˆ์„ ์š”์ฒญํ•˜๋Š” ์ƒํ™ฉ์„ ์ž์—ฐ์Šค๋Ÿฌ์šด ๊ตฌ์–ด์ฒด ๋ฌธ์žฅ์œผ๋กœ 100๊ฐœ ์ƒ์„ฑํ•ด์ค˜.โ€

์ดˆ๊ธฐ ๊ฒฐ๊ณผ๋Š” ํ›Œ๋ฅญํ•ด ๋ณด์˜€์Šต๋‹ˆ๋‹ค. LLM์€ "์ œ๊ฐ€ ์–ด์ œ ๊ฐ•๋‚จ์—ญ์—์„œ ๊ฒฐ์ œํ–ˆ๋Š”๋ฐ ๋‘ ๋ฒˆ ๊ธํžŒ ๊ฒƒ ๊ฐ™์•„์š”", "์นด๋“œ ๋ถ„์‹ค ์‹ ๊ณ ๋ฅผ ํ•˜๋ ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค"์™€ ๊ฐ™์ด ๋ฌธ๋ฒ•์ ์œผ๋กœ ์™„๋ฒฝํ•˜๊ณ  ์ž์—ฐ์Šค๋Ÿฌ์šด ๋ฌธ์žฅ๋“ค์„ ์ƒ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. ์นด๋“œ์‚ฌ๋‚˜ ์ฆ๊ถŒ์‚ฌ์—์„œ ์‚ฌ์šฉํ•˜๋Š” ์ „๋ฌธ ์šฉ์–ด(์ „ํ‘œ ๋งค์ž…, ํ• ๋ถ€ ์ฒ ํšŒ ๋“ฑ)๋„ ์ ์žฌ์ ์†Œ์— ์‚ฌ์šฉ๋˜์–ด ์ดˆ๊ธฐ์—๋Š” ์ด ๋ฐ์ดํ„ฐ๋งŒ์œผ๋กœ๋„ ์ถฉ๋ถ„ํ•  ๊ฒƒ์ด๋ผ ์ƒ๊ฐํ–ˆ์Šต๋‹ˆ๋‹ค.

ํ•˜์ง€๋งŒ, ์ด๋ ‡๊ฒŒ ์ƒ์„ฑ๋œ ์ˆ˜์ฒœ ๊ฐœ์˜ ๋ฌธ์žฅ์„ ๋ถ„์„ํ•˜๊ณ  BERT ๋ชจ๋ธ ํ•™์Šต์„ ์‹œ๋„ํ•ด ๋ณธ ๊ฒฐ๊ณผ, ๋ณธ์งˆ์ ์ธ ํ•œ๊ณ„์ ์ด ๋“œ๋Ÿฌ๋‚ฌ์Šต๋‹ˆ๋‹ค. ๋ฐ”๋กœ ํ•™์Šต ๋ฐ์ดํ„ฐ์…‹์˜ ๋‹ค์–‘์„ฑ์ด ๋ถ€์กฑํ•˜๋‹ค๋Š” ์ ์ด์—ˆ์Šต๋‹ˆ๋‹ค.

  • ํŒจํ„ด์˜ ๋‹จ์กฐ๋กœ์›€: LLM์€ ํ™•๋ฅ ์ ์œผ๋กœ ๊ฐ€์žฅ '๊ทธ๋Ÿด๋“ฏํ•œ' ๋‹จ์–ด๋ฅผ ์„ ํƒํ•˜์—ฌ ๋ฌธ์žฅ์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‹ค ๋ณด๋‹ˆ ์ƒ์„ฑ๋œ ๋ฌธ์žฅ๋“ค์ด ๋งˆ์น˜ ๋ชจ๋ฒ” ๋‹ต์•ˆ์ฒ˜๋Ÿผ ์ •์ œ๋˜์–ด ์žˆ๊ณ , ๋ฌธ์žฅ์˜ ๊ตฌ์กฐ(์ฃผ์–ด-๋ชฉ์ ์–ด-์„œ์ˆ ์–ด)๊ฐ€ ์ง€๋‚˜์น˜๊ฒŒ ์ผ๊ด€๋œ ๊ฒฝํ–ฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.

  • ํ˜„์‹ค์„ฑ์„ ๋‹ด์ง€ ๋ชปํ•œ ๋ฐ์ดํ„ฐ: ์‹ค์ œ ๊ณ ๊ฐ ์ƒ๋‹ด ํ˜„์žฅ์—์„œ๋Š” '์„ ๊ฒฐ์ œ/์ฆ‰์‹œ์ถœ๊ธˆ', '๋„๋‚œ ๋ถ„์‹ค ํ•ด์ œ', 'ํ•œ๋„ ์ƒํ–ฅ ์‹ฌ์‚ฌ' ๋“ฑ ๋ณต์žกํ•œ ๋„๋ฉ”์ธ ์‹œ๋‚˜๋ฆฌ์˜ค๊ฐ€ ์กด์žฌํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ ํ™”๊ฐ€ ๋‚œ ๊ณ ๊ฐ, ๋ง์„ ๋”๋“ฌ๋Š” ๊ณ ๊ฐ, ๋น„๋ฌธ์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒฝ์šฐ, ํ˜น์€ "์•„๋‹ˆ ๊ทธ๊ฒŒ ์•„๋‹ˆ๊ณ , ์ €๋ฒˆ์— ๋งํ•œ ๊ฑฐ ์žˆ์ž–์•„"์™€ ๊ฐ™์ด ๋ฌธ๋งฅ์ด ์ƒ๋žต๋œ ๋Œ€ํ™”๋„ ๋นˆ๋ฒˆํ•ฉ๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ LLM์€ ์ผ๋ฐ˜์ ์ด๊ณ  ํ‰์ดํ•œ ์ผ€์ด์Šค์— ํŽธ์ค‘๋˜์–ด ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค.

BERT์™€ ๊ฐ™์€ ์ธ์ฝ”๋” ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์€ ๋‹จ์ˆœํžˆ ๋‹จ์–ด๋ฅผ ์™ธ์šฐ๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ๋ฌธ์žฅ ๋‚ด์˜ ๋ณต์žกํ•œ ๋ฌธ๋งฅ(Context)์„ ์ดํ•ดํ•˜๊ณ  ๊ทธ ์†์—์„œ ์—”ํ‹ฐํ‹ฐ(Entity)์˜ ์—ญํ• ์„ ์ถ”๋ก ํ•˜๋Š” ๋Šฅ๋ ฅ์ด ํ•ต์‹ฌ์ž…๋‹ˆ๋‹ค. ํ•™์Šต ๋ฐ์ดํ„ฐ์˜ ํŒจํ„ด์ด ๋‹จ์กฐ๋กœ์šฐ๋ฉด ๋ชจ๋ธ์€ ์‰ฌ์šด ํŒจํ„ด์—๋งŒ ๊ณผ์ ํ•ฉ ๋˜์–ด, ์กฐ๊ธˆ๋งŒ ๋‚ฏ์„  ํ‘œํ˜„์ด๋‚˜ ๋ณต์žกํ•œ ๋ฌธ์žฅ์ด ๋“ค์–ด์™€๋„ ์„ฑ๋Šฅ์ด ๊ธ‰๊ฒฉํžˆ ๋–จ์–ด์ง€๋Š” ๊ฒฐ๊ณผ๋ฅผ ์ดˆ๋ž˜ํ•ฉ๋‹ˆ๋‹ค. ๊ฒฐ๋ก ์ ์œผ๋กœ, LLM ๋‹จ๋… ์ƒ์„ฑ ๋ฐฉ์‹์€ '์–‘'์€ ์ฑ„์šธ ์ˆ˜ ์žˆ์—ˆ์ง€๋งŒ, ์‹ค๋ฌด ํ™˜๊ฒฝ์„ ์ปค๋ฒ„ํ•  ์ˆ˜ ์žˆ๋Š” '์งˆ(๋‹ค์–‘์„ฑ)'์„ ํ™•๋ณดํ•˜๊ธฐ์—๋Š” ์—ญ๋ถ€์กฑ์ด์—ˆ์Šต๋‹ˆ๋‹ค.



2) ๋ŒํŒŒ๊ตฌ: AI Hub ๋ฏผ์› ๋ฐ์ดํ„ฐ์…‹์„ ํ™œ์šฉํ•œ '์‹œ๋‚˜๋ฆฌ์˜ค ์ด์‹โ€™

LLM์ด ์Šค์Šค๋กœ ๋‹ค์–‘ํ•œ ์ƒํ™ฉ์„ ์ƒ์ƒํ•˜๋Š” ๋ฐ ํ•œ๊ณ„๊ฐ€ ์žˆ๋‹ค๋ฉด, "์ด๋ฏธ ๋‹ค์–‘ํ•œ ์ƒํ™ฉ์ด ๋‹ด๊ฒจ ์žˆ๋Š” ์‹ค์ œ ๋ฐ์ดํ„ฐ"๋ฅผ ๊ฐ€์ด๋“œ๋กœ ์ฃผ๋ฉด ์–ด๋–จ๊นŒ? ์ด ์งˆ๋ฌธ์—์„œ ์ถœ๋ฐœํ•˜์—ฌ AI Hub์˜ '๋ฏผ๊ฐ„ ๋ฏผ์› ์ƒ๋‹ด LLM ์‚ฌ์ „ํ•™์Šต ๋ฐ Instruction Tuning ๋ฐ์ดํ„ฐ[2]'๋ฅผ ์‹œ๋“œ ๋ฐ์ดํ„ฐ(Seed Data)๋กœ ํ™œ์šฉํ•˜๊ธฐ๋กœ ๊ฒฐ์ •ํ–ˆ์Šต๋‹ˆ๋‹ค.

์ด ๋ฐ์ดํ„ฐ์…‹์„ ์„ ํƒํ•œ ์ด์œ ๋Š” ๋ช…ํ™•ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ €ํฌ๊ฐ€ ์ง์ ‘ "์ด์ค‘ ๊ฒฐ์ œ ์ƒํ™ฉ์„ ๋งŒ๋“ค์–ด์ค˜"๋ผ๊ณ  ์ฃผ์ œ๋ฅผ ํ•œ์ •ํ•˜์ง€ ์•Š์•„๋„, ํ•ด๋‹น ๋ฐ์ดํ„ฐ์…‹ ์•ˆ์—๋Š” ์ด๋ฏธ ์นด๋“œ์‚ฌ์—์„œ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ๋Š” 40๊ฑด ์ด์ƒ์˜ ์‹ค์ œ ๋ฏผ์› ์‹œ๋‚˜๋ฆฌ์˜ค๊ฐ€ ํฌํ•จ๋˜์–ด ์žˆ์—ˆ๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ์ตœ๊ทผ์— ๊ตฌ์ถ•ํ•˜์—ฌ ์ด์šฉ๋‚ด์—ญ ์•ˆ๋‚ด, ์„ ๊ฒฐ์ œ/์ฆ‰์‹œ์ถœ๊ธˆ, ๋„๋‚œ/๋ถ„์‹ค ์‹ ์ฒญ/ํ•ด์ œ, ํ•œ๋„์ƒํ–ฅ ์ ‘์ˆ˜/์ฒ˜๋ฆฌ, ๊ฒฐ์ œ๋Œ€๊ธˆ ์•ˆ๋‚ด ๋“ฑ ์ƒ์ƒ๋งŒ์œผ๋กœ๋Š” ๋– ์˜ฌ๋ฆฌ๊ธฐ ํž˜๋“  ๋””ํ…Œ์ผํ•œ ์—…๋ฌด ์œ ํ˜•๋“ค์ด ๋ฐ์ดํ„ฐ์…‹์— ๋…น์•„ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค.

์ €ํฌ๋Š” ๋ฐ์ดํ„ฐ ๊ตฌ์ถ• ํŒŒ์ดํ”„๋ผ์ธ์„ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๊ณ ๋„ํ™”ํ–ˆ์Šต๋‹ˆ๋‹ค.

  1. ์‹œ๋“œ ๋ฐ์ดํ„ฐ ์ƒ˜ํ”Œ๋ง: AI Hub ๋ฐ์ดํ„ฐ์…‹์—์„œ ๋ฌด์ž‘์œ„๋กœ ๋ฐ์ดํ„ฐ ์ƒ˜ํ”Œ์„ ์ถ”์ถœํ•ฉ๋‹ˆ๋‹ค.

  2. LLM Rewrite: ์ถ”์ถœํ•œ ์ƒ˜ํ”Œ์„ LLM์—๊ฒŒ ํ”„๋กฌํ”„ํŠธ๋กœ ์ œ๊ณตํ•˜๋ฉฐ, ์ด๋ฅผ ์›ํ•˜๋Š” ์šฉ๋„์— ๋งž๊ฒŒ ๋ณ€ํ˜•ํ•˜๊ฑฐ๋‚˜ ๋ฌธ์ฒด๋ฅผ ๋‹ค์–‘ํ•˜๊ฒŒ ๋ฐ”๊พธ๋„๋ก ์ง€์‹œํ•ฉ๋‹ˆ๋‹ค.

  3. ๋‹ค์–‘์„ฑ ํ™•๋ณด: ์›๋ณธ ๋ฐ์ดํ„ฐ์˜ ๋‹ค์–‘ํ•œ ์—…๋ฌด ์œ ํ˜•์„ ํ†ตํ•ด ๋ฐ์ดํ„ฐ์˜ ๋‹ค์–‘์„ฑ์„ ํ™•๋ณดํ•˜์—ฌ ํ˜„์‹ค์ ์ธ ์‹œ๋‚˜๋ฆฌ์˜ค๋ฅผ ๋…น์—ฌ๋‚ผ ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค.

์ด ๋ฐฉ์‹์€ BERT ๋ชจ๋ธ ํ•™์Šต์— ๊ฒฐ์ •์ ์ธ ์˜ํ–ฅ์„ ๋ฏธ์ณค์Šต๋‹ˆ๋‹ค. ๋ชจ๋ธ์€ ์ด์ œ ๋‹จ์ˆœํ•œ ํŒจํ„ด์ด ์•„๋‹ˆ๋ผ, "๊ณ ๊ฐ์ด ๋ถˆ๋งŒ์„ ํ‘œ์ถœํ•˜๋Š” ๋ฌธ๋งฅ", "์ •๋ณด๋ฅผ ํ™•์ธํ•˜๋ ค๋Š” ์˜๋ฌธ์˜ ๋ฌธ๋งฅ" ๋“ฑ ๋ฌธ์žฅ์˜ ์˜๋„์™€ ํ๋ฆ„์„ ํ•™์Šตํ•˜๊ธฐ ์‹œ์ž‘ํ–ˆ์Šต๋‹ˆ๋‹ค.



3) ๋‚จ๊ฒจ์ง„ ๊ณผ์ œ: ๋น„์‹๋ณ„ํ™”๋œ ๊ณต๋ฐฑ๊ณผ ํด๋ž˜์Šค ๋ถˆ๊ท ํ˜•

์‹œ๋“œ ๋ฐ์ดํ„ฐ๋ฅผ ํ†ตํ•ด ์‹œ๋‚˜๋ฆฌ์˜ค์˜ ๋‹ค์–‘์„ฑ ๋ฌธ์ œ๋Š” ํ•ด๊ฒฐํ–ˆ์ง€๋งŒ, ์—ฌ์ „ํžˆ ๋„˜์–ด์•ผ ํ•  ์‚ฐ์ด ๋‚จ์•„ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค.

์ฒซ์งธ, ๋น„์‹๋ณ„ํ™” ๋ฌธ์ œ์ž…๋‹ˆ๋‹ค. AI Hub ๋ฐ์ดํ„ฐ๋Š” ๊ฐœ์ธ์ •๋ณด ๋ณดํ˜ธ๋ฅผ ์œ„ํ•ด ์ด๋ฆ„, ์ฃผ์†Œ, ์ „ํ™”๋ฒˆํ˜ธ ๋“ฑ์ด ๋ชจ๋‘ โ–ฒ์™€ ๊ฐ™์ด ๋งˆ์Šคํ‚น ์ฒ˜๋ฆฌ๋œ ์ƒํƒœ์˜€์Šต๋‹ˆ๋‹ค. ๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ค๊ธฐ ์œ„ํ•ด์„œ๋Š” ์ด ์ž๋ฆฌ์— ์‹ค์ œ์™€ ์œ ์‚ฌํ•œ ๊ฐ€์งœ ๊ฐœ์ธ์ •๋ณด๋ฅผ ์ฑ„์›Œ ๋„ฃ๊ณ , ์ •ํ™•ํ•œ ์ •๋‹ต ๋ผ๋ฒจ์„ ๋‹ฌ์•„์ฃผ๋Š” '์žฌ์‹๋ณ„ํ™”(Re-identification)' ๊ณผ์ •์ด ํ•„์š”ํ–ˆ์Šต๋‹ˆ๋‹ค.

๋‘˜์งธ, ํด๋ž˜์Šค ๋ถˆ๊ท ํ˜•(Class Imbalance) ๋ฌธ์ œ์ž…๋‹ˆ๋‹ค. ์‹œ๋“œ ๋ฐ์ดํ„ฐ๋ฅผ ๋ถ„์„ํ•ด ๋ณด๋‹ˆ, '์ด๋ฆ„โ€™, '๋ฉ”์ผ์ฃผ์†Œ' ๊ฐ™์€ ์ผ๋ฐ˜์ ์ธ ๊ฐœ์ฒด๋ช…์€ ๊ฑฐ์˜ ๋ชจ๋“  ๋ฌธ์žฅ์— ๋“ฑ์žฅํ•˜๋Š” ๋ฐ˜๋ฉด, '๊ฐ€๋งน์ ๋ช…', '๊ฒฐ์ œ๊ธˆ์•ก'๊ณผ ๊ฐ™์€ ํ•ต์‹ฌ ๊ฐœ์ธ ์ •๋ณด๋Š” ๋“ฑ์žฅํ•˜์ง€ ์•Š์•˜์Šต๋‹ˆ๋‹ค. NER ๋ชจ๋ธ์€ ๋ฐ์ดํ„ฐ๊ฐ€ ๋งŽ์€ ํด๋ž˜์Šค๋Š” ์ž˜ ๋งž์ถ”์ง€๋งŒ, ๋ฐ์ดํ„ฐ๊ฐ€ ์ ์€ ํฌ๊ท€ ํด๋ž˜์Šค๋Š” ๋ฌด์‹œํ•˜๊ฑฐ๋‚˜ โ€˜Oโ€™ ํƒœ๊ทธ๋กœ ์˜ˆ์ธกํ•ด๋ฒ„๋ฆฌ๋Š” ๊ฒฝํ–ฅ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ์ €ํฌ๊ฐ€ ๋ชฉํ‘œ๋กœ ํ•˜๋Š” ๊ฒƒ์€ ๋ชจ๋“  ๊ฐœ์ธ์ •๋ณด๋ฅผ ๋น ์ง์—†์ด ํƒ์ง€ํ•˜๋Š” ๊ฐ•๊ฑดํ•œ(Robust) ๋ชจ๋ธ์ด์—ˆ๊ธฐ์—, ํŠน์ • ํด๋ž˜์Šค์— ํŽธํ–ฅ๋˜์ง€ ์•Š๊ณ  ๋ชจ๋“  ํด๋ž˜์Šค๋ฅผ ๊ณจ๊ณ ๋ฃจ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋Š” ์ „๋žต์ด ์ ˆ์‹คํ–ˆ์Šต๋‹ˆ๋‹ค.

๋‹จ์ˆœํžˆ ๋นˆ ์นธ์„ ์ฑ„์šฐ๋Š” ๊ฒƒ์„ ๋„˜์–ด, ์–ด๋–ป๊ฒŒ ํ•˜๋ฉด ํฌ๊ท€ํ•œ ํด๋ž˜์Šค(Rare Class)์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์ฆ๊ฐ•ํ•˜๊ณ  ๋ชจ๋ธ์˜ ํ•™์Šต ๊ท ํ˜•์„ ๋งž์ถœ ์ˆ˜ ์žˆ์—ˆ๋Š”์ง€, ๋ฐ์ดํ„ฐ ๋ฐธ๋Ÿฐ์‹ฑ(Data Balancing) ์ „๋žต์— ๋Œ€ํ•ด์„œ๋Š” ๋‹ค์Œ ์ฑ•ํ„ฐ์—์„œ ๊ตฌ์ฒด์ ์œผ๋กœ ๋‹ค๋ฃจ๊ฒ ์Šต๋‹ˆ๋‹ค.

1.4 Class Imbalance ๋ฌธ์ œ ๊ฐœ์„ ํ•˜๊ธฐ: ๋ชจ๋ธ์˜ ํŽธ์‹์„ ๋ง‰๋Š” 3๊ฐ€์ง€ ์ „๋žต

1.4 Class Imbalance ๋ฌธ์ œ ๊ฐœ์„ ํ•˜๊ธฐ: ๋ชจ๋ธ์˜ ํŽธ์‹์„ ๋ง‰๋Š” 3๊ฐ€์ง€ ์ „๋žต

์•ž์„œ ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ–ˆ์ง€๋งŒ, ๋‹จ์ˆœํžˆ ๋ฐ์ดํ„ฐ์˜ ์–‘๋งŒ ๋Š˜๋ฆฐ๋‹ค๊ณ  ๋Šฅ์‚ฌ๋Š” ์•„๋‹ˆ์—ˆ์Šต๋‹ˆ๋‹ค. NER ํƒœ์Šคํฌ์˜ ์„ฑ๋Šฅ์„ ๋–จ์–ด๋œจ๋ฆฌ๋Š” ๊ณ ์งˆ์ ์ธ ๋ฌธ์ œ, ๋ฐ”๋กœ Class Imbalance๊ฐ€ ๊ธฐ๋‹ค๋ฆฌ๊ณ  ์žˆ์—ˆ๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ์ €ํฌ๋Š” ์ด ๋ฌธ์ œ๋ฅผ ํฌ๊ฒŒ ๋‘ ๊ฐ€์ง€ ๊ด€์ ์—์„œ ๋ถ„์„ํ•˜๊ณ  ํ•ด๊ฒฐ์ฑ…์„ ์„ค๊ณ„ํ–ˆ์Šต๋‹ˆ๋‹ค.



1) ๋ฌธ์ œ์˜ ๋ณธ์งˆ: ์™œ ๋ชจ๋ธ์€ ์†Œ์ˆ˜ ํด๋ž˜์Šค๋ฅผ ์™ธ๋ฉดํ•˜๋Š”๊ฐ€?

์ฒซ์งธ, ํƒ€๊ฒŸ ํด๋ž˜์Šค ๊ฐ„์˜ ๊ทน์‹ฌํ•œ ๋ถˆ๊ท ํ˜•(Inter-Class Imbalance)์ž…๋‹ˆ๋‹ค. ์ด์ƒ์ ์ธ ํ•™์Šต ํ™˜๊ฒฝ์€ ์ด๋ฆ„, ๊ฐ€๋งน์ ๋ช…, ์ƒ์„ธ์ฃผ์†Œ ๋“ฑ ๋ชจ๋“  ํƒ€๊ฒŸ ํด๋ž˜์Šค๊ฐ€ ๊ท ๋“ฑํ•˜๊ฒŒ ๋ถ„ํฌํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ํ˜„์‹ค ๋ฐ์ดํ„ฐ๋Š” '์ด๋ฆ„'์ด๋‚˜ '๋ฉ”์ผ์ฃผ์†Œ'๋Š” ๋นˆ๋ฒˆํ•˜๊ฒŒ ๋“ฑ์žฅํ•˜๋Š” ๋ฐ˜๋ฉด, '๊ฐ€๋งน์ ๋ช…'์ด๋‚˜ '๊ฒฐ์ œ๊ธˆ์•ก'๊ณผ ๊ฐ™์€ ๋ฏผ๊ฐ ์ •๋ณด๋Š” ๋งค์šฐ ํฌ์†Œํ•˜๊ฒŒ ๋“ฑ์žฅํ•ฉ๋‹ˆ๋‹ค. ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ์€ ๊ธฐ๋ณธ์ ์œผ๋กœ ์ „์ฒด ์†์‹ค(Global Loss)์„ ์ตœ์†Œํ™”ํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ์ตœ์ ํ™”๋ฉ๋‹ˆ๋‹ค. ๋งŒ์•ฝ ํ•™์Šต ๋ฐ์ดํ„ฐ์— '์ด๋ฆ„'์ด 1,000๊ฐœ, '์ƒ์„ธ์ฃผ์†Œ'๊ฐ€ 10๊ฐœ๋ฟ์ด๋ผ๋ฉด, ๋ชจ๋ธ์€ ์ƒ์„ธ์ฃผ์†Œ 10๊ฐœ๋ฅผ ๋ชจ๋‘ ํ‹€๋ฆฌ๋”๋ผ๋„ ๋‹ค์ˆ˜์ธ ์ด๋ฆ„ 1,000๊ฐœ๋ฅผ ๋งž์ถ”๋Š” ์ชฝ์œผ๋กœ ๊ฐ€์ค‘์น˜๋ฅผ ์—…๋ฐ์ดํŠธํ•ฉ๋‹ˆ๋‹ค. ๊ฒฐ๊ณผ์ ์œผ๋กœ ๋ชจ๋ธ์€ ๋ฐ์ดํ„ฐ๊ฐ€ ํ’๋ถ€ํ•œ ํด๋ž˜์Šค์— ๊ณผ์ ํ•ฉ(Overfitting)๋˜๊ณ , ์ •์ž‘ ๋ณด์•ˆ์ƒ ๋” ์ค‘์š”ํ•  ์ˆ˜ ์žˆ๋Š” ํฌ์†Œ ๊ฐœ์ธ์ •๋ณด๋Š” ๋…ธ์ด์ฆˆ๋กœ ์ทจ๊ธ‰ํ•˜์—ฌ ํ•™์Šตํ•˜์ง€ ๋ชปํ•˜๋Š” ํŽธํ–ฅ์ด ๋ฐœ์ƒํ•ฉ๋‹ˆ๋‹ค.

๋‘˜์งธ, ๋ฐฐ๊ฒฝ ํด๋ž˜์Šค('O' ํƒœ๊ทธ)์˜ ์••๋„์  ๋น„์ค‘์ž…๋‹ˆ๋‹ค. NER ํƒœ์Šคํฌ์˜ ํŠน์„ฑ์ƒ, ๋ฌธ์žฅ์—์„œ ์‹ค์ œ ๊ฐœ์ฒด๋ช…์œผ๋กœ ๋ถ„๋ฅ˜๋˜๋Š” ํ† ํฐ์€ ๊ทน์†Œ์ˆ˜์ด๋ฉฐ, ๋‚˜๋จธ์ง€ 90% ์ด์ƒ์€ ์˜๋ฏธ ์—†๋Š” ์ผ๋ฐ˜ ํ† ํฐ์ธ 'O' ํƒœ๊ทธ๋กœ ๋ผ๋ฒจ๋ง๋ฉ๋‹ˆ๋‹ค. ์ด ๊ฒฝ์šฐ ๋ชจ๋ธ์€ "๋ชจ๋“  ํ† ํฐ์„ 'O'๋ผ๊ณ  ์˜ˆ์ธก"ํ•˜๊ธฐ๋งŒ ํ•ด๋„ 90% ์ด์ƒ์˜ ์ •ํ™•๋„(Accuracy)๋ฅผ ๋ณด์ด๋Š” ๋ฌธ์ œ์ ์„ ๊ฐ–์Šต๋‹ˆ๋‹ค. ๋ชจ๋ธ ์ž…์žฅ์—์„œ๋Š” ๋ณต์žกํ•œ ๋ฌธ๋งฅ์„ ํŒŒ์•…ํ•ด ๊ฐœ์ฒด๋ช…์„ ์ฐพ๋‹ค๊ฐ€ ํ‹€๋ ค ๋ฒŒ์ (Loss)์„ ๋ฐ›๋А๋‹ˆ, ๋ฌด์กฐ๊ฑด 'O'๋ผ๊ณ  ๋‹ตํ•˜๋Š” ๊ฒƒ์ด ๊ฐ€์žฅ ์•ˆ์ „ํ•œ ์„ ํƒ์ด ๋˜๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ์ด๋Š” ๊ฒฐ๊ตญ ๊ฐœ์ฒด๋ช… ํƒ์ง€ ์ž์ฒด๋ฅผ ์†Œ๊ทน์ ์œผ๋กœ ๋งŒ๋“ค๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

์ด ๋‘ ๊ฐ€์ง€ ๋ฌธ์ œ๋Š” ์„œ๋กœ ๋งž๋ฌผ๋ฆฌ๋ฉด์„œ, ๋ชจ๋ธ์ด ์†Œ์ˆ˜ ํด๋ž˜์Šค๋Š” ๋ฌด์‹œํ•˜๊ณ , ๋Œ€๋ถ€๋ถ„์˜ ํ† ํฐ์„ โ€˜Oโ€™๋กœ ๋ถ„๋ฅ˜ํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ํ•™์Šต๋  ์œ„ํ—˜์„ ๋‚ดํฌํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ํ•™์Šต ๋ฐ์ดํ„ฐ ๊ตฌ์„ฑ๊ณผ ์†์‹ค ํ•จ์ˆ˜ ์„ค๊ณ„ ๋“ฑ ๋‹ค์–‘ํ•œ ์ธก๋ฉด์—์„œ Class Imbalance๋ฅผ ๊ณ ๋ คํ•œ ์ „๋žต์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.



2) ํ•ด๊ฒฐ ์ „๋žต A: LLM ๊ธฐ๋ฐ˜์˜ ๋ฐ์ดํ„ฐ ๋ฐธ๋Ÿฐ์‹ฑ

์ €ํฌ๋Š” ๊ฐ€์žฅ ๋จผ์ € ๋ฐ์ดํ„ฐ ์ƒ์„ฑ ๋‹จ๊ณ„์—์„œ๋ถ€ํ„ฐ ๋ฌผ๋ฆฌ์ ์ธ ๋ถˆ๊ท ํ˜•์„ ํ•ด์†Œํ•˜๊ณ ์ž ํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ธฐ์กด์˜ ๋žœ๋ค ์ƒ˜ํ”Œ๋ง ๋ฐฉ์‹ ๋Œ€์‹ , LLM์„ ํ™œ์šฉํ•œ ์ฆ๊ฐ•(Augmentation)์„ ๋„์ž…ํ–ˆ์Šต๋‹ˆ๋‹ค. ์‹œ๋“œ ๋ฐ์ดํ„ฐ์— ํŠน์ • ํด๋ž˜์Šค(์˜ˆ: ์ด๋ฆ„, ๋ฉ”์ผ์ฃผ์†Œ)๋งŒ ํŽธ์ค‘๋˜์–ด ์žˆ๋‹ค๋ฉด, ํ”„๋กฌํ”„ํŠธ ์—”์ง€๋‹ˆ์–ด๋ง์„ ํ†ตํ•ด ํฌ๊ท€ ํด๋ž˜์Šค(๊ฐ€๋งน์ ๋ช…, ๊ฒฐ์ œ๊ธˆ์•ก ๋“ฑ)๊ฐ€ ํฌํ•จ๋œ ๋ฌธ๋งฅ์„ ๊ฐ•์ œ๋กœ ์ƒ์„ฑํ•ด๋ƒˆ์Šต๋‹ˆ๋‹ค. ํฌ๊ท€ ํด๋ž˜์Šค๊ฐ€ ์ž์—ฐ์Šค๋Ÿฌ์šด ๋ฌธ๋งฅ ์†์—์„œ 10๊ฐœ ์ด์ƒ์˜ ๋‹ค์–‘ํ•œ ๋ณ€ํ˜•์„ ๊ฐ–๋„๋ก ์œ ๋„ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋ชจ๋ธ์€ ํฌ๊ท€ํ•œ ํด๋ž˜์Šค์— ๋Œ€ํ•ด์„œ๋„ ์ถฉ๋ถ„ํ•œ ๋ฌธ๋งฅ์  ๋‹จ์„œ๋ฅผ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋Š” ๊ธฐ๋ฐ˜์„ ๋งˆ๋ จํ–ˆ์Šต๋‹ˆ๋‹ค.



3) ํ•ด๊ฒฐ ์ „๋žต B: Effective Number ๊ธฐ๋ฐ˜์˜ ์†์‹ค ํ•จ์ˆ˜ ์žฌ์„ค๊ณ„

๋ฐ์ดํ„ฐ ์ฆ๊ฐ•์œผ๋กœ๋„ ํ•ด๊ฒฐ๋˜์ง€ ์•Š๋Š” ๋ฏธ์„ธํ•œ ๋ถˆ๊ท ํ˜•์€ ์†์‹ค ํ•จ์ˆ˜(Loss Function) ๋ ˆ๋ฒจ์—์„œ ์ œ์–ดํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋•Œ ๋‹จ์ˆœํ•œ ๋นˆ๋„ ์—ญ์ˆ˜(Inverse Frequency)๊ฐ€ ์•„๋‹Œ, ์œ ํšจ ์ƒ˜ํ”Œ ์ˆ˜(Effective Number of Samples) ๊ฐœ๋…์„ ๋„์ž…ํ•˜์—ฌ ํด๋ž˜์Šค ๊ฐ€์ค‘์น˜(Class Weight)๋ฅผ ์ •๊ตํ•˜๊ฒŒ ์„ค๊ณ„ํ–ˆ์Šต๋‹ˆ๋‹ค.

์ •๋ณด ์ด๋ก ์  ๊ด€์ ์—์„œ ๋ณผ ๋•Œ, ๋ฐ์ดํ„ฐ๊ฐ€ ๋งŽ์•„์งˆ์ˆ˜๋ก ์ƒˆ๋กœ์šด ์ƒ˜ํ”Œ์ด ์ œ๊ณตํ•˜๋Š” ์ •๋ณด๋Ÿ‰์˜ ํ•œ๊ณ„ ํšจ์šฉ์€ ์ฒด๊ฐํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰, ๋™์ผํ•œ ํด๋ž˜์Šค์˜ 1๋ฒˆ์งธ ๋ฐ์ดํ„ฐ๋Š” ๋ชจ๋ธ์—๊ฒŒ ์ƒˆ๋กœ์šด ์ •๋ณด๋ฅผ ์ฃผ์ง€๋งŒ, 1,000๋ฒˆ์งธ ๋ฐ์ดํ„ฐ๋Š” ์•ž์„  999๊ฐœ์™€ ์œ ์‚ฌํ•œ ํŠน์„ฑ์„ ๊ณต์œ ํ•˜๋ฏ€๋กœ ์ •๋ณด์˜ ์ค‘๋ณต์„ฑ์ด ๋†’์Šต๋‹ˆ๋‹ค. ์ด ์ ์— ์ฐฉ์•ˆํ•˜์—ฌ, ์ƒ˜ํ”Œ์˜ ๋‹จ์ˆœ ๊ฐœ์ˆ˜๊ฐ€ ์•„๋‹Œ '์ •๋ณด์˜ ์œ ํšจ ํฌ๊ธฐ'๋ฅผ ๊ธฐ์ค€์œผ๋กœ ๊ฐ€์ค‘์น˜๋ฅผ ์‚ฐ์ถœํ–ˆ์Šต๋‹ˆ๋‹ค.

  • ํฌ๊ท€ ํด๋ž˜์Šค: ๋†’์€ ์ค‘๋ณต์„ฑ์„ ๊ฐ€์ง€์ง€ ์•Š์œผ๋ฏ€๋กœ ์ƒ๋Œ€์ ์œผ๋กœ ๋†’์€ ๊ฐ€์ค‘์น˜๋ฅผ ๋ถ€์—ฌํ•˜์—ฌ, ๋ชจ๋ธ์ด ํ•œ ๋ฒˆ ํ‹€๋ฆด ๋•Œ๋งˆ๋‹ค ํฐ ํŽ˜๋„ํ‹ฐ๋ฅผ ๋ฐ›๋„๋ก ์œ ๋„ํ–ˆ์Šต๋‹ˆ๋‹ค.

  • ๋นˆ์ถœ ํด๋ž˜์Šค('O' ํฌํ•จ): ์ด๋ฏธ ์ถฉ๋ถ„ํ•œ ์ •๋ณด๋Ÿ‰์„ ๊ฐ€์ง€๊ณ  ์žˆ์œผ๋ฏ€๋กœ ๊ฐ€์ค‘์น˜๋ฅผ ๋‚ฎ์ถฐ, ํ•™์Šต ๊ณผ์ •์—์„œ ๋ฐœ์ƒํ•˜๋Š” ๊ทธ๋ž˜๋””์–ธํŠธ(Gradient)๊ฐ€ 'O' ํƒœ๊ทธ์— ์˜ํ•ด ์ง€๋ฐฐ๋˜๋Š” ํ˜„์ƒ์„ ์–ต์ œํ–ˆ์Šต๋‹ˆ๋‹ค.

์ด๋Ÿฌํ•œ ๊ฐ€์ค‘์น˜ ์žฌ์กฐ์ •์€ ๋ชจ๋ธ์ด "O๋ผ๊ณ  ์ฐ๋Š” ์•ˆ์ „ํ•œ ์„ ํƒ"์„ ํ•  ๋•Œ ์–ป๋Š” ์ด๋“์„ ์ค„์ด๊ณ , "ํฌ๊ท€ ํด๋ž˜์Šค๋ฅผ ๋งž์ท„์„ ๋•Œ ์–ป๋Š” ๋ณด์ƒ"์„ ๊ทน๋Œ€ํ™”ํ•˜์—ฌ ํ•™์Šต์˜ ๊ท ํ˜•์ ์„ ์˜ฌ๋ฐ”๋ฅธ ๋ฐฉํ–ฅ์œผ๋กœ ์ด๋™์‹œ์ผฐ์Šต๋‹ˆ๋‹ค.



4) ํ•ด๊ฒฐ ์ „๋žต C: Context Window ์ƒ˜ํ”Œ๋ง

๋งˆ์ง€๋ง‰์œผ๋กœ, ํ•™์Šต ํšจ์œจ์„ฑ์„ ๊ทน๋Œ€ํ™”ํ•˜๊ธฐ ์œ„ํ•ด ์ž…๋ ฅ ๋ฐ์ดํ„ฐ์˜ ๊ตฌ์„ฑ ๋ฐฉ์‹์„ ๋ณ€๊ฒฝํ–ˆ์Šต๋‹ˆ๋‹ค. ๋ฌธ์žฅ ์ „์ฒด๋ฅผ ํ†ต์งธ๋กœ ๋„ฃ๋Š” ๊ธฐ์กด ๋ฐฉ์‹์€ ๋ถˆํ•„์š”ํ•œ 'O' ํƒœ๊ทธ๊ฐ€ ๊ณผ๋„ํ•˜๊ฒŒ ํฌํ•จ๋˜์–ด ํ•™์Šต ํŽธํ–ฅ์„ ์œ ๋ฐœํ•ฉ๋‹ˆ๋‹ค. ์ด๋ฅผ ๋ฐฉ์ง€ํ•˜๊ธฐ ์œ„ํ•ด ๊ฐœ์ฒด๋ช… ์ค‘์‹ฌ์˜ ์œˆ๋„์šฐ ์ƒ˜ํ”Œ๋ง์„ ์ ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ฐœ์ฒด๋ช…์ด ๋“ฑ์žฅํ•˜๋Š” ์œ„์น˜๋ฅผ ๊ธฐ์ค€์œผ๋กœ ์•ž๋’ค ์ผ์ • ๋ฒ”์œ„(Context Window)์˜ ๋ฌธ๋งฅ๋งŒ์„ ์ž˜๋ผ๋‚ด์–ด ํ•™์Šต ๋ฐ์ดํ„ฐ๋กœ ๊ตฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ฐฉ์‹์€ ๋ชจ๋ธ์ด ๊ฐœ์ธ์ •๋ณด๊ฐ€ ๋“ฑ์žฅํ•˜๊ธฐ ์ง์ „/์งํ›„์˜ ๊ฒฐ์ •์ ์ธ ๋ฌธ๋งฅ ํŒจํ„ด์— ์ง‘์ค‘ํ•˜๊ฒŒ ๋งŒ๋“ค๋ฉฐ, ์ „์ฒด ๋ฐ์ดํ„ฐ์…‹์—์„œ 'O' ํƒœ๊ทธ๊ฐ€ ์ฐจ์ง€ํ•˜๋Š” ์ ˆ๋Œ€์ ์ธ ๋น„์ค‘์„ ๋‚ฎ์ถ”๋Š” ํšจ๊ณผ๋ฅผ ๊ฐ€์ ธ์™”์Šต๋‹ˆ๋‹ค. ๋‹จ, ๋ฌธ๋งฅ์ด ๋„ˆ๋ฌด ์งง์•„์ง€๋ฉด ์˜๋ฏธ ํŒŒ์•…์ด ๋ถˆ๊ฐ€๋Šฅํ•ด์ง€๋Š” ๋ถ€์ž‘์šฉ์„ ๋ง‰๊ธฐ ์œ„ํ•ด, ์ตœ์†Œ ํ† ํฐ ๊ธธ์ด(Minimum Token Length)๋ฅผ ์„ค์ •ํ•˜์—ฌ ๋ฌธ๋งฅ์˜ ์˜๋ฏธ์  ์™„๊ฒฐ์„ฑ์„ ๋ณด์žฅํ–ˆ์Šต๋‹ˆ๋‹ค.

์ง€๊ธˆ๊นŒ์ง€ ๋ณด์•ˆ์ด ์ƒ๋ช…์ธ ๊ธˆ์œต ๋„๋ฉ”์ธ์˜ ํŠน์ˆ˜์„ฑ ์†์—์„œ '์ œ๋กœ๋ฒ ์ด์Šค ๋ฐ์ดํ„ฐ ๊ตฌ์ถ•'๊ณผ 'ํด๋ž˜์Šค ๋ถˆ๊ท ํ˜• ํ•ด๊ฒฐ'์ด๋ผ๋Š” ๋‘ ๊ฐ€์ง€ ๋‚œ์ œ๋ฅผ ์–ด๋–ป๊ฒŒ ๊ธฐ์ˆ ์ ์œผ๋กœ ๋ŒํŒŒํ–ˆ๋Š”์ง€ ์ƒ์„ธํžˆ ๊ณต์œ ํ•ด ๋“œ๋ ธ์Šต๋‹ˆ๋‹ค. ๋ฌผ๋ก  ์ด ์™ธ์—๋„ ๋น„์‹๋ณ„ํ™”๋œ ๋ฐ์ดํ„ฐ๋ฅผ ํ˜„์‹ค์ ์ธ ๊ฐ’์œผ๋กœ ์น˜ํ™˜ํ•˜๋Š” Re-identification ์ „๋žต์ด๋‚˜, ์กฐ์‚ฌ์™€ ๊ฒฐํ•ฉ๋œ ์—”ํ‹ฐํ‹ฐ ๊ฒฝ๊ณ„(Entity Boundary) ๋ฌธ์ œ ๋“ฑ ์‹ค๋ฌด์ ์ธ ๋””ํ…Œ์ผ์ด ๋” ์กด์žฌํ•ฉ๋‹ˆ๋‹ค๋งŒ, ๋ณธ ๊ธ€์—์„œ๋Š” ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ๊ฒฐ์ •์ง“๋Š” ๊ฐ€์žฅ ํ•ต์‹ฌ์ ์ธ ๋ผˆ๋Œ€๋“ค์„ ์ค‘์‹ฌ์œผ๋กœ ๋‹ค๋ฃจ์—ˆ์Šต๋‹ˆ๋‹ค.

์ด์ œ ์šฐ๋ฆฌ์˜ ์‹œ์„ ์„ ๋‚ด๋ถ€์—์„œ ์™ธ๋ถ€๋กœ ๋Œ๋ ค๋ณผ ์ฐจ๋ก€์ž…๋‹ˆ๋‹ค. ๊ณผ์—ฐ ๋‹ค๋ฅธ ์—ฐ๊ตฌ์ž๋“ค์€ ์ด ๊นŒ๋‹ค๋กœ์šด ๊ฐœ์ธ์ •๋ณด ๋งˆ์Šคํ‚น ๋ฌธ์ œ๋ฅผ ์–ด๋–ป๊ฒŒ ํ’€๊ณ  ์žˆ์„๊นŒ์š”? ๋‹ค์Œ ์žฅ์—์„œ๋Š” ์ตœ์‹  ์—ฐ๊ตฌ ๋™ํ–ฅ์„ ํ†ตํ•ด ๋ณธ ํ”„๋กœ์ ํŠธ์˜ ๊ธฐ์ˆ ์  ์œ„์น˜๋ฅผ ์ ๊ฒ€ํ•ด ๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.

2. ๋‚จ๋“ค์€ ์–ด๋–ป๊ฒŒ ํ–ˆ์„๊นŒ? ์ตœ์‹  ์—ฐ๊ตฌ ๋™ํ–ฅ ํ•œ๋ˆˆ์— ๋ณด๊ธฐ

2. ๋‚จ๋“ค์€ ์–ด๋–ป๊ฒŒ ํ–ˆ์„๊นŒ? ์ตœ์‹  ์—ฐ๊ตฌ ๋™ํ–ฅ ํ•œ๋ˆˆ์— ๋ณด๊ธฐ

์ง€๊ธˆ๊นŒ์ง€ ์ œ๋กœ๋ฒ ์ด์Šค์—์„œ ๋ฐ์ดํ„ฐ๋ฅผ ๊ตฌ์ถ•ํ•˜๊ณ  ํด๋ž˜์Šค ๋ถˆ๊ท ํ˜•์„ ํ•ด๊ฒฐํ•˜๋ฉฐ ์ž์ฒด ๋ชจ๋ธ์„ ๊ฐœ๋ฐœํ•œ ๊ณผ์ •์„ ๊ณต์œ ํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋ ‡๋‹ค๋ฉด ํ˜„์žฌ ํ•™๊ณ„์™€ ๊ธ€๋กœ๋ฒŒ ์‚ฐ์—…๊ณ„์—์„œ๋Š” ๊ฐœ์ธ์ •๋ณด ๋งˆ์Šคํ‚น ๋ฌธ์ œ๋ฅผ ์–ด๋–ป๊ฒŒ ํ’€๊ณ  ์žˆ์„๊นŒ์š”?

2024๋…„๊ณผ 2025๋…„์— ๋ฐœํ‘œ๋œ ์ตœ์‹  ์—ฐ๊ตฌ๋“ค์„ ์‚ดํŽด๋ณด๋ฉด, ํ๋ฆ„์€ ํฌ๊ฒŒ

1) LLM์˜ ํ•œ๊ณ„์™€ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ,
2) ์‹ค์šฉ์„ฑ์„ ์œ„ํ•œ ๊ฒฝ๋Ÿ‰ํ™”(Efficiency),
3) ๋„๋ฉ”์ธ ๋ฐ ์–ธ์–ด ํŠนํ™” ๋ผ๋Š” ์„ธ ๊ฐ€์ง€ ํ•ต์‹ฌ ์ค„๊ธฐ๋กœ ์š”์•ฝ๋ฉ๋‹ˆ๋‹ค.

ํฅ๋ฏธ๋กœ์šด ์ ์€, ์ด๋Ÿฌํ•œ ์ตœ์‹  ์—ฐ๊ตฌ ๊ฒฐ๊ณผ๋“ค์ด ๋ณธ ํ”„๋กœ์ ํŠธ๊ฐ€ ์„ ํƒํ•œ ๊ธฐ์ˆ ์  ์˜์‚ฌ๊ฒฐ์ •๋“ค๊ณผ ๋ถ€ํ•ฉํ•˜๋‹ค๋Š” ์‚ฌ์‹ค์ž…๋‹ˆ๋‹ค.



1) LLM, ๋งŒ๋Šฅ์—ด์‡ ์ผ๊นŒ? : ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ์™€ ์ •๋ณด ์†์‹ค์˜ ๋”œ๋ ˆ๋งˆ

์ตœ๊ทผ ์—ฐ๊ตฌ๋“ค์€ LLM์„ ๋น„์‹๋ณ„ํ™”์˜ ๋„๊ตฌ๋กœ ์“ฐ๋˜, ๊ทธ ํ•œ๊ณ„๋ฅผ ๋ƒ‰์ •ํ•˜๊ฒŒ ํ‰๊ฐ€ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

  • Not What the Doctor Ordered: Surveying LLM-based De-identification and Quantifying Clinical Information Loss[3] (EMNLP, 2025): ์ด ์—ฐ๊ตฌ๋Š” LLM์„ ์ด์šฉํ•œ ๋น„์‹๋ณ„ํ™”๊ฐ€ ๊ฐœ์ธ์ •๋ณด๋ฅผ ์ž˜ ํƒ์ง€ํ•˜๋Š” ๋“ฏํ•˜์ง€๋งŒ, ์‹ค์ œ๋กœ๋Š” ํ™˜์ž์—๊ฒŒ ์ค‘์š”ํ•œ ์ •๋ณด(์ง„๋‹จ๋ช…, ์•ฝ๋ฌผ ๋“ฑ)๊นŒ์ง€ ๊ณผ๋„ํ•˜๊ฒŒ ์ œ๊ฑฐํ•˜๊ฑฐ๋‚˜ ๋ณ€ํ˜•ํ•˜๋Š” ์น˜๋ช…์ ์ธ ๋‹จ์ ์ด ์žˆ์Œ์„ ์ง€์ ํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ธˆ์œต ๋ฐ์ดํ„ฐ ์—ญ์‹œ ์ˆซ์ž ํ•˜๋‚˜, ๋‹จ์–ด ํ•˜๋‚˜์˜ ๋ฌด๊ฒฐ์„ฑ์ด ๋งค์šฐ ์ค‘์š”ํ•˜๊ธฐ ๋•Œ๋ฌธ์—, ์ƒ์„ฑํ˜• ๋ชจ๋ธ ํŠน์œ ์˜ ํ™˜๊ฐ(Hallucination) ์œ„ํ—˜์„ฑ์€ ์‹ค์ œ ์„œ๋น„์Šค ์ ์šฉ์— ํฐ ๊ฑธ๋ฆผ๋Œ์ด ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์šฐ๋ฆฌ๊ฐ€ ํ†ต์ œ ๊ฐ€๋Šฅํ•œ BERT-CRF ๋ชจ๋ธ์„ ๊ตฌ์ถ•ํ•ด์•ผ ํ•˜๋Š” ํ•˜๋‚˜์˜ ๊ทผ๊ฑฐ์ด๊ธฐ๋„ ํ•ฉ๋‹ˆ๋‹ค.

  • SPY: Enhancing Privacy with Synthetic PII Detection Dataset[4] (NAACL, 2025): ์ด ์—ฐ๊ตฌ๋Š” LLM์„ ์ง์ ‘ ๋งˆ์Šคํ‚น์— ์“ฐ๋Š” ๋Œ€์‹ , ๊ณ ํ’ˆ์งˆ์˜ ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ์…‹(Synthetic Dataset)์„ ๋งŒ๋“œ๋Š” ๋„๊ตฌ๋กœ ํ™œ์šฉํ•  ๊ฒƒ์„ ์ œ์•ˆํ–ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ๋‹จ์ˆœ ์ƒ์„ฑ์ด ์•„๋‹ˆ๋ผ '์ง์—…(Occupation)'์ด๋‚˜ '์„ฑ๊ฒฉ(Personality)' ๊ฐ™์€ ํŽ˜๋ฅด์†Œ๋‚˜๋ฅผ ๋ถ€์—ฌํ•ด ๋ฐ์ดํ„ฐ์˜ ๋‹ค์–‘์„ฑ์„ ํ™•๋ณดํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์ €ํฌ๊ฐ€ ์‹œ๋“œ ๋ฐ์ดํ„ฐ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋‹ค์–‘ํ•œ ๊ธˆ์œต ๋ฏผ์› ์‹œ๋‚˜๋ฆฌ์˜ค๋ฅผ ํ™•์žฅํ•˜์—ฌ ๋ฐ์ดํ„ฐ ํŽธํ–ฅ์„ ๊ทน๋ณตํ–ˆ๋˜ ์ ‘๊ทผ ๋ฐฉ์‹๊ณผ ์ผ๋งฅ์ƒํ†ตํ•˜๋Š” ๊ฒฐ๊ณผ์ž…๋‹ˆ๋‹ค.



2) ๋ฌด๊ฑฐ์šด ๋ชจ๋ธ์„ ๊ฐ€๋ณ๊ฒŒ : ์ง€์‹ ์ฆ๋ฅ˜์™€ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ์ ‘๊ทผ

ํ˜„์—…์—์„œ๋Š” ์„ฑ๋Šฅ๋งŒํผ์ด๋‚˜ '๋น„์šฉ'๊ณผ '์†๋„'๊ฐ€ ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค. ์ด์— ๋”ฐ๋ผ ๊ฑฐ๋Œ€ ๋ชจ๋ธ์˜ ์ง€์‹์„ ์ž‘์€ ๋ชจ๋ธ๋กœ ์˜ฎ๊ธฐ๊ฑฐ๋‚˜, ๊ทœ์น™ ๊ธฐ๋ฐ˜ ๋ฐฉ์‹์„ ๊ฒฐํ•ฉํ•˜๋Š” ์‹ค์šฉ์  ์—ฐ๊ตฌ๋“ค์ด ์ฃผ๋ชฉ๋ฐ›๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

  • Resource-Efficient Anonymization of Textual Data via Knowledge Distillation from Large Language Models[5] (COLING, 2025): ํ•ด๋‹น ์—ฐ๊ตฌ์—์„œ๋Š” LLM์˜ ์ง€์‹์„ ์†Œํ˜• ๋ชจ๋ธ๋กœ ์˜ฎ๊ธฐ๋Š” ์ง€์‹ ์ฆ๋ฅ˜(Distillation)์™€ ํ•จ๊ป˜, ์ •๊ทœํ‘œํ˜„์‹์„ ๊ฒฐํ•ฉํ•œ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ํŒŒ์ดํ”„๋ผ์ธ์„ ์ œ์•ˆํ–ˆ์Šต๋‹ˆ๋‹ค. ์ตœ์‹  ์—ฐ๊ตฌ์—์„œ๋„ ์—ฌ์ „ํžˆ ์ •๊ทœ์‹๊ณผ ๋ชจ๋ธ์„ ์ƒํ˜ธ๋ณด์™„์ ์œผ๋กœ ์‚ฌ์šฉํ•˜๋Š” ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ์ ‘๊ทผ๋ฒ•์ด ํ‘œ์ค€์ž„์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค.

  • GLiNER: Generalist Model for Named Entity Recognition using Bidirectional Transformer[6] (NAACL, 2024): ์ด ์—ฐ๊ตฌ๋Š” ์‚ฌ์ „ ์ •์˜๋œ ์—”ํ‹ฐํ‹ฐ๋งŒ ํƒ์ง€ํ•˜๋Š” ๊ธฐ์กด ํ•œ๊ณ„๋ฅผ ๋„˜์–ด, ํ›ˆ๋ จํ•˜์ง€ ์•Š์€ ์ƒˆ๋กœ์šด ์œ ํ˜•๋„ ์œ ์—ฐํ•˜๊ฒŒ ์ฐพ๋Š” ์ œ๋กœ์ƒท(Zero-shot) ๋ชจ๋ธ์„ ์ œ์•ˆํ–ˆ์Šต๋‹ˆ๋‹ค. ๋น„๋ก ๊ธˆ์œต ๋„๋ฉ”์ธ์˜ ํŠน์„ฑ์„ ๊ณ ๋ คํ•˜์—ฌ ์ €ํฌ๋Š” BERT-CRF๋ฅผ ์„ ํƒํ–ˆ์ง€๋งŒ, ๋ฌด๊ฑฐ์šด LLM ๋Œ€์‹  ํšจ์œจ์ ์ธ ์†Œํ˜• ๋ชจ๋ธ(BiLM)์„ ์‚ฌ์šฉํ•˜๋Š” ์ ‘๊ทผ๋ฒ•์€ ๋ณธ ํ”„๋กœ์ ํŠธ์™€ ์œ ์‚ฌํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ Negative Entity Sampling์„ ํ†ตํ•ด ๋ชจ๋ธ์˜ ๊ณผ์ ํ•ฉ์„ ๋ง‰๊ณ  ํ•™์Šต ๊ท ํ˜•์„ ๋งž์ถ”๋Š” ๊ธฐ๋ฒ•์€ ์ €ํฌ๊ฐ€ ํด๋ž˜์Šค ๋ถˆ๊ท ํ˜• ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ๋„์ž…ํ•œ ์ „๋žต์˜ ํƒ€๋‹น์„ฑ์„ ๋’ท๋ฐ›์นจํ•ด์ค๋‹ˆ๋‹ค.



3) ํ•œ๊ตญ์–ด์™€ ๋„๋ฉ”์ธ ํŠนํ™” : ๋ฒ”์šฉ ๋ชจ๋ธ์ด ๋†“์น˜๋Š” ๋””ํ…Œ์ผ

๋ฒ”์šฉ ๋ชจ๋ธ(General LLM)๋ณด๋‹ค๋Š” ํŠน์ • ์–ธ์–ด์— ํŠนํ™”๋œ ๋ชจ๋ธ์ด ์—ฌ์ „ํžˆ ๊ฐ•๋ ฅํ•œ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•œ๋‹ค๋Š” ์—ฐ๊ตฌ ๊ฒฐ๊ณผ๋„ ์žˆ์Šต๋‹ˆ๋‹ค.

  • Thunder-DeID: Accurate and Efficient De-identification Framework
    for Korean Court Judgments
    [7] (EMNLP, 2025): ์ด ์—ฐ๊ตฌ๋Š” ๊ณ ๋ฏผํ–ˆ๋˜ '๋ฐ์ดํ„ฐ ๋ถ€์žฌ ํ•ด๊ฒฐ ์ „๋žต'๊ณผ 'ํ•œ๊ตญ์–ด ํŠนํ™” ์ฒ˜๋ฆฌ' ๋ฐฉ์‹์„ ๊ทธ๋Œ€๋กœ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์›๋ณธ ๋ฐ์ดํ„ฐ ์ ‘๊ทผ์ด ๋ถˆ๊ฐ€๋Šฅํ•œ ๋ฒ•๋ฅ  ๋„๋ฉ”์ธ์—์„œ, ๋น„์‹๋ณ„ํ™”๋œ ๋ฌธ์„œ๋ฅผ ์‹œ๋“œ ๋ฐ์ดํ„ฐ๋กœ ํ™œ์šฉํ•˜๋Š” ๋ฐฉ์‹์„ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ์ฃผ๋ชฉํ•  ์ ์€ ํ˜•ํƒœ์†Œ ๋ถ„์„๊ธฐ(Mecab)์˜ ํ™œ์šฉ์ž…๋‹ˆ๋‹ค. ์ €ํฌ๋Š” ํ”„๋กœ์ ํŠธ ์ผ์ •์ƒ ์กฐ์‚ฌ๋ฅผ ๋ถ„๋ฆฌํ•˜๋Š” ์ „์ฒ˜๋ฆฌ๋ฅผ ๊นŠ๊ฒŒ ์ ์šฉํ•˜์ง€ ๋ชปํ–ˆ๋Š”๋ฐ, ์ด ๋…ผ๋ฌธ์—์„œ๋Š” Mecab์„ ์ด์šฉํ•ด ๋ช…์‚ฌ์™€ ์กฐ์‚ฌ๋ฅผ ์ •๋ฐ€ํ•˜๊ฒŒ ๊ตฌ๋ถ„ํ•จ์œผ๋กœ์จ ์„ฑ๋Šฅ์„ ๋†’์˜€์Šต๋‹ˆ๋‹ค. ์ด๋Š” "ํ•œ๊ตญ์–ด์™€ ๊ฐ™์€ ๊ต์ฐฉ์–ด์—์„œ๋Š” ํ˜•ํƒœ์†Œ ๋ถ„์„์ด ํ•„์ˆ˜์ "์ด๋ผ๋Š” ์ €ํฌ ๊ฐ€์„ค๊ณผ ๋งž์•„ ๋–จ์–ด์ง€๋ฉฐ, ํ–ฅํ›„ ๊ณ ๋„ํ™” ๊ณผ์ •์—์„œ ๋ฐ˜๋“œ์‹œ ์ ์šฉํ•ด์•ผ ํ•  ๊ฐœ์„ ์ ์ž„์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค. ๊ฒฐ๊ตญ ๋„๋ฉ”์ธ์€ ๋‹ฌ๋ผ๋„(๊ธˆ์œต vs ๋ฒ•๋ฅ ), ๋ฏผ๊ฐ ์ •๋ณด๋ฅผ ๋‹ค๋ฃจ๋Š” ๋‚ด๋ถ€๋ง ํ™˜๊ฒฝ์—์„œ์˜ ์ƒ์กด ์ „๋žต์€ ํ†ตํ•œ๋‹ค๋Š” ๊ฒƒ์„ ์•Œ ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค.



๐Ÿ’ก ์š”์•ฝ ๋ฐ ์‹œ์‚ฌ์ 

์ตœ์‹  ์—ฐ๊ตฌ ๋™ํ–ฅ์„ ์ข…ํ•ฉํ•ด๋ณผ ๋•Œ, "๋ฌด์กฐ๊ฑด ์ตœ์‹  LLM์„ ์“ฐ๋Š” ๊ฒƒ์ด ์ •๋‹ต์€ ์•„๋‹ˆ๋‹ค"๋ผ๋Š” ๊ฒฐ๋ก ์— ๋„๋‹ฌํ•ฉ๋‹ˆ๋‹ค.

  1. Safety: LLM์€ ์ง์ ‘ ๋งˆ์Šคํ‚น ๋„๊ตฌ๋กœ ์“ฐ๊ธฐ์—” ํ™˜๊ฐ๊ณผ ์ •๋ณด ์†์‹ค ๋ฆฌ์Šคํฌ๊ฐ€ ์กด์žฌํ•ฉ๋‹ˆ๋‹ค.

  2. Efficiency: ์‹ค์ œ ์„œ๋น„์Šค ํ™˜๊ฒฝ(On-premise)์—์„œ๋Š” ๊ฒฝ๋Ÿ‰ํ™”๋œ ํŠนํ™” ๋ชจ๋ธ(BERT)๊ณผ ์ •๊ทœ ํ‘œํ˜„์‹์„ ๊ฒฐํ•ฉํ•˜๋Š” ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ์ ‘๊ทผ๋ฒ•์ด ์†๋„์™€ ์ •ํ™•๋„ ๋ฉด์—์„œ ํ•ฉ๋ฆฌ์ ์ธ ์„ ํƒ์ง€๊ฐ€ ๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  3. Specialty: ํŠนํžˆ ํ•œ๊ตญ์–ด ๊ธˆ์œต ๋ฐ์ดํ„ฐ์™€ ๊ฐ™์€ ํŠน์ˆ˜ ๋„๋ฉ”์ธ์—์„œ๋Š” ๋ฒ”์šฉ ๋ชจ๋ธ๋ณด๋‹ค ๋„๋ฉ”์ธ ์ ์‘(Domain Adaptation)์„ ๊ฑฐ์นœ ํŠนํ™” ๋ชจ๋ธ์ด ์œ ๋ฆฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ด๋Ÿฌํ•œ ํ•™๊ณ„์˜ ํ๋ฆ„์€ ๋ณธ ํ”„๋กœ์ ํŠธ์—์„œ ์ฑ„ํƒํ•œ 'LLM ๊ธฐ๋ฐ˜ ๋ฐ์ดํ„ฐ ์ƒ์„ฑ โ†’ BERT+CRF ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ๋ชจ๋ธ ๊ตฌ์ถ•' ์ „๋žต์ด ๊ธฐ์ˆ  ํŠธ๋ Œ๋“œ์™€ ์ •ํ™•ํžˆ ๋ถ€ํ•ฉํ•˜๋ฉฐ, ์‹ค๋ฌด์ ์œผ๋กœ๋„ ํ•ฉ๋ฆฌ์ ์ธ ๋ฐฉ๋ฒ•์ž„์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.

์ด์ œ ๋งˆ์ง€๋ง‰์œผ๋กœ, ์ด๋ ‡๊ฒŒ ์„ค๊ณ„๋œ ๋ชจ๋ธ์ด ์ „ํ†ต์ ์ธ ์ •๊ทœํ‘œํ˜„์‹์ด๋‚˜ ์ตœ์‹  LLM๊ณผ ๋น„๊ตํ–ˆ์„ ๋•Œ ์‹ค์ œ๋กœ ์–ด๋–ค ์„ฑ๋Šฅ ์ฐจ์ด๋ฅผ ๋ณด์˜€๋Š”์ง€, ์˜ˆ์‹œ๋ฅผ ํ†ตํ•ด์„œ ํ™•์ธํ•ด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.

3. ์ •๊ทœ์‹ vs LLM vs ํ•˜์ด๋ธŒ๋ฆฌ๋“œ: ๋ฌด์—‡์ด ์‹ค์ œ๋กœ ์ ํ•ฉํ•œ๊ฐ€?

3. ์ •๊ทœ์‹ vs LLM vs ํ•˜์ด๋ธŒ๋ฆฌ๋“œ: ๋ฌด์—‡์ด ์‹ค์ œ๋กœ ์ ํ•ฉํ•œ๊ฐ€?

๊ธฐ์ˆ ์  ์˜์‚ฌ๊ฒฐ์ •์˜ ํ•ต์‹ฌ์€ ์ตœ์‹ ์˜ ๊ธฐ์ˆ ์„ ์“ฐ๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ๋ฌธ์ œ์— ๊ฐ€์žฅ ์ ํ•ฉํ•œ ๊ธฐ์ˆ ์„ ์„ ํƒํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด๋ฒˆ ์žฅ์—์„œ๋Š” ์šฐ๋ฆฌ๊ฐ€ ์™œ ์ „ํ†ต์ ์ธ ์ •๊ทœํ‘œํ˜„์‹๊ณผ ๋– ์˜ค๋ฅด๋Š” LLM์„ ๋‘๊ณ , BERT-CRF๋ฅผ ์„ ํƒํ–ˆ๋Š”์ง€์— ๋Œ€ํ•ด์„œ ๋‹ค๋ค„๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.

3.1 ์ •๊ทœํ‘œํ˜„์‹๋งŒ์œผ๋กœ ์ถฉ๋ถ„ํ• ๊นŒ?

3.1 ์ •๊ทœํ‘œํ˜„์‹๋งŒ์œผ๋กœ ์ถฉ๋ถ„ํ• ๊นŒ?

์ „ํ†ต์ ์ธ ๋งˆ์Šคํ‚น ์‹œ์Šคํ…œ์€ ๋Œ€๋ถ€๋ถ„ ์ •๊ทœํ‘œํ˜„์‹(Regular Expression)์— ์˜์กดํ•ด ์™”์Šต๋‹ˆ๋‹ค. ์ „ํ™”๋ฒˆํ˜ธ๋‚˜ ์ฃผ๋ฏผ๋“ฑ๋ก๋ฒˆํ˜ธ์ฒ˜๋Ÿผ ํ˜•์‹์ด ๊ณ ์ •๋œ ๋ฐ์ดํ„ฐ(Structured Data)๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐ ์žˆ์–ด ์ •๊ทœ์‹๋งŒํผ ๋น ๋ฅด๊ณ  ํ™•์‹คํ•œ ๋„๊ตฌ๋Š” ์—†๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์‹ค์ œ ๊ธˆ์œต ํ˜„์žฅ์˜ ๋ฐ์ดํ„ฐ๋Š” ๊ฒฐ์ฝ” ์–Œ์ „ํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ๊ณ ๊ฐ์ด ๋‚จ๊ธด ๊ฑฐ์นœ ๋น„์ •ํ˜• ํ…์ŠคํŠธ(Unstructured Text) ์•ž์—์„œ๋„ ์ •๊ทœ์‹์€ ์—ฌ์ „ํžˆ ์œ ํšจํ• ๊นŒ์š”?



1) ์ •๊ทœ์‹์˜ ๋‘ ๊ฐ€์ง€ ์น˜๋ช…์  ์•ฝ์ 

์ฒซ์งธ, ๋ณ€์น™์  ํ‘œํ˜„์— ๋Œ€ํ•œ ์ทจ์•ฝ์„ฑ์ž…๋‹ˆ๋‹ค.
์ •๊ทœ์‹์€ '์ •ํ•ด์ง„ ํ‹€'์ž…๋‹ˆ๋‹ค. ์‹ค์ œ ๋ฐ์ดํ„ฐ์— ๋นˆ๋ฒˆํ•œ ์˜คํƒ€, ์˜๋„์ ์ธ ๋„์–ด์“ฐ๊ธฐ, ํŠน์ˆ˜๋ฌธ์ž ์‚ฝ์ž… ๋“ฑ์ด ๋ฐœ์ƒํ•˜๋ฉด, ๋‹จ ํ•œ ๊ธ€์ž๋งŒ ์–ด๊ธ‹๋‚˜๋„ ํƒ์ง€์— ์‹คํŒจํ•ฉ๋‹ˆ๋‹ค. ๋ชจ๋“  ๋ณ€์ˆ˜(๋„์–ด์“ฐ๊ธฐ ๊ฒฝ์šฐ์˜ ์ˆ˜ ๋“ฑ)๋ฅผ ์ •๊ทœ์‹์— ๋‹ค ๋„ฃ์œผ๋ ค๋‹ค๊ฐ€๋Š” ํŒจํ„ด์ด ๊ธฐํ•˜๊ธ‰์ˆ˜์ ์œผ๋กœ ๋ณต์žกํ•ด์ ธ ์œ ์ง€๋ณด์ˆ˜๊ฐ€ ๋ถˆ๊ฐ€๋Šฅํ•ด์ง‘๋‹ˆ๋‹ค.

๋‘˜์งธ, ์˜๋ฏธ ๊ธฐ๋ฐ˜ ์ •๋ณด์˜ ํƒ์ง€ ๋ถˆ๊ฐ€์ž…๋‹ˆ๋‹ค.
'์ด๋ฆ„'์ด๋‚˜ '์ƒ์„ธ ์ฃผ์†Œ', '๊ฐ€๋งน์ ๋ช…'์€ ์ •ํ•ด์ง„ ์ˆซ์ž ํŒจํ„ด์ด ์—†์Šต๋‹ˆ๋‹ค. "์ด์ˆœ์‹ ", "์„์ง€๋ฌธ๋•"์ด๋ผ๋Š” ๋‹จ์–ด๋Š” Context ์†์—์„œ๋งŒ ์‚ฌ๋žŒ ์ด๋ฆ„์œผ๋กœ ๊ธฐ๋Šฅํ•  ๋ฟ, ๊ธ€์ž ์ž์ฒด์—๋Š” ๊ณ ์œ ํ•œ ๊ทœ์น™์ด ์—†์Šต๋‹ˆ๋‹ค. ์ •๊ทœ์‹์€ ๊ธ€์ž ๋ชจ์–‘๋งŒ ๋ณผ ๋ฟ, ๊ทธ ์˜๋ฏธ๋ฅผ ์ฝ์ง€ ๋ชปํ•ฉ๋‹ˆ๋‹ค.



2) ์‹ค์ œ ๋ฐ์ดํ„ฐ ๋น„๊ต : Regex vs NER (Case Study)

๋ฐ˜๋ฉด, ์ €ํฌ๊ฐ€ ๊ตฌํ˜„ํ•œ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ์ ‘๊ทผ๋ฒ•(NER ๋ชจ๋ธ)์€ ์ฃผ๋ณ€ ๋‹จ์–ด๋ฅผ ํ†ตํ•ด ๋ฌธ๋งฅ์„ ์ฝ์Šต๋‹ˆ๋‹ค. ์•„๋ž˜๋Š” ์‹ค์ œ ๊ธˆ์œต ๋ฐ์ดํ„ฐ์—์„œ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ๋Š” 4๊ฐ€์ง€ ๋Œ€ํ‘œ์ ์ธ ์ผ€์ด์Šค์— ๋Œ€ํ•ด ์ •๊ทœ์‹๊ณผ NER ๋ชจ๋ธ์˜ ํƒ์ง€ ๊ฒฐ๊ณผ๋ฅผ ๋น„๊ตํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

์ผ€์ด์Šค

์˜ˆ์‹œ ๋ฌธ์žฅ

์ •๊ทœ์‹ ๊ฒฐ๊ณผ

NER ๋ชจ๋ธ ๊ฒฐ๊ณผ

  1. ๋™ํ˜•์ด์˜์–ด

"๋‹น์ฒจ์ž๋Š” ์ดํ•˜๋Š˜ ๋‹˜์ž…๋‹ˆ๋‹ค."

- ๋งˆ์Šคํ‚น ํ…์ŠคํŠธ: ์ด๋ฒˆ ์ด๋ฒคํŠธ ๋‹น์ฒจ์ž๋Š” ์ดํ•˜๋Š˜ ๋‹˜์ž…๋‹ˆ๋‹ค.

- ๋ฐœ๊ฒฌ ๊ฐœ์ˆ˜: 0๊ฐœ

- ๋งˆ์Šคํ‚น ํ…์ŠคํŠธ: ์ด๋ฒˆ ์ด๋ฒคํŠธ ๋‹น์ฒจ์ž๋Š” [์ด๋ฆ„] ๋‹˜์ž…๋‹ˆ๋‹ค.

- ๋ฐœ๊ฒฌ ๊ฐœ์ˆ˜: 1๊ฐœ

* ์ดํ•˜๋Š˜ -> [์ด๋ฆ„] (์‹ ๋ขฐ๋„: 0.966)

(์ค‘์˜์„ฑ ํ•ด๊ฒฐ)

"์˜ค๋Š˜ ์ดํ•˜๋Š˜ ์•„๋ž˜ ๋ชจ์˜€์Šต๋‹ˆ๋‹ค."

- ๋งˆ์Šคํ‚น ํ…์ŠคํŠธ: ์˜ค๋Š˜ ์ดํ•˜๋Š˜ ์•„๋ž˜ ์šฐ๋ฆฌ๊ฐ€ ํ•จ๊ป˜ ๋ชจ์˜€์Šต๋‹ˆ๋‹ค.

- ๋ฐœ๊ฒฌ ๊ฐœ์ˆ˜: 0๊ฐœ

- ๋งˆ์Šคํ‚น ํ…์ŠคํŠธ: ์˜ค๋Š˜ ์ดํ•˜๋Š˜ ์•„๋ž˜ ์šฐ๋ฆฌ๊ฐ€ ํ•จ๊ป˜ ๋ชจ์˜€์Šต๋‹ˆ๋‹ค.

- ๋ฐœ๊ฒฌ ๊ฐœ์ˆ˜: 0๊ฐœ

  1. ๋ณ€ํ˜•๋œ ํŒจํ„ด

"์ฃผ๋ฏผ๋ฒˆํ˜ธ๋Š” 950101 - 1*** ์ž…๋‹ˆ๋‹ค."

- ๋งˆ์Šคํ‚น ํ…์ŠคํŠธ: ์ฃผ๋ฏผ๋ฒˆํ˜ธ๋Š” 950101 - 1**** ์ž…๋‹ˆ๋‹ค.

- ๋ฐœ๊ฒฌ ๊ฐœ์ˆ˜: 0๊ฐœ

- ๋งˆ์Šคํ‚น ํ…์ŠคํŠธ: ์ฃผ๋ฏผ๋ฒˆํ˜ธ๋Š” [์ฃผ๋ฏผ๋“ฑ๋ก๋ฒˆํ˜ธ] ์ž…๋‹ˆ๋‹ค.

- ๋ฐœ๊ฒฌ ๊ฐœ์ˆ˜: 1๊ฐœ

* 950101-1**** -> [์ฃผ๋ฏผ๋“ฑ๋ก๋ฒˆํ˜ธ] (์‹ ๋ขฐ๋„: 0.969)

  1. ๋น„์ •ํ˜• ์ฃผ์†Œ

"์ฃผ์†Œ๋Š” ์„œ์šธ์‹œ ๊ฐ•๋‚จ๊ตฌ ํ…Œํ—ค๋ž€๋กœ 123์ด๊ณ  4์ธต์ž…๋‹ˆ๋‹ค."

- ๋งˆ์Šคํ‚น ํ…์ŠคํŠธ: ์ฃผ์†Œ๋Š” ์„œ์šธ์‹œ ๊ฐ•๋‚จ๊ตฌ ํ…Œํ—ค๋ž€๋กœ 123์ด๊ณ  4์ธต์ž…๋‹ˆ๋‹ค.

- ๋ฐœ๊ฒฌ ๊ฐœ์ˆ˜: 0๊ฐœ

- ๋งˆ์Šคํ‚น ํ…์ŠคํŠธ: ์ฃผ์†Œ๋Š” [์ƒ์„ธ์ฃผ์†Œ]์ž…๋‹ˆ๋‹ค.

- ๋ฐœ๊ฒฌ ๊ฐœ์ˆ˜: 1๊ฐœ

* ์„œ์šธ์‹œ๊ฐ•๋‚จ๊ตฌํ…Œํ—ค๋ž€๋กœ123์ด๊ณ 4์ธต -> [์ƒ์„ธ์ฃผ์†Œ] (์‹ ๋ขฐ๋„: 0.970)

  1. ๊ฐ€๋งน์ ๋ช…

"์žฅ๋ฏธ ์‹๋‹น์—์„œ 2๋งŒ ์› ๊ฒฐ์ œํ–ˆ์Šต๋‹ˆ๋‹ค."

- ๋งˆ์Šคํ‚น ํ…์ŠคํŠธ: ์žฅ๋ฏธ ์‹๋‹น์—์„œ [๊ธˆ์•ก] ์› ๊ฒฐ์ œํ•˜์…จ์Šต๋‹ˆ๋‹ค.

- ๋ฐœ๊ฒฌ ๊ฐœ์ˆ˜: 1๊ฐœ

* 2๋งŒ -> [๊ธˆ์•ก] (์‹ ๋ขฐ๋„: 1.000)

- ๋งˆ์Šคํ‚น ํ…์ŠคํŠธ: [๊ฐ€๋งน์ ๋ช…]์—์„œ [๊ฒฐ์ œ๊ธˆ์•ก] ๊ฒฐ์ œํ•˜์…จ์Šต๋‹ˆ๋‹ค.

- ๋ฐœ๊ฒฌ ๊ฐœ์ˆ˜: 2๊ฐœ

* ์žฅ๋ฏธ์‹๋‹น -> [๊ฐ€๋งน์ ๋ช…] (์‹ ๋ขฐ๋„: 0.529)

* 2๋งŒ์› -> [๊ฒฐ์ œ๊ธˆ์•ก] (์‹ ๋ขฐ๋„: 0.885)



3) ๊ฒฐ๋ก : ์ƒํ˜ธ ๋ณด์™„์ ์ธ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ์ „๋žต

์œ„ ๊ฒฐ๊ณผ์—์„œ ๋ณด๋“ฏ, ๋ฌธ๋งฅ ํŒŒ์•…์ด ํ•„์š”ํ•œ ์˜์—ญ์—์„œ๋Š” NER ๋ชจ๋ธ์ด ์••๋„์ ์ธ ์„ฑ๋Šฅ์„ ๋ณด์ž…๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ๊ทธ๋ ‡๋‹ค๊ณ  ์ •๊ทœ์‹์„ ์™„์ „ํžˆ ๋ฐฐ์ œํ•˜๋Š” ๊ฒƒ์€ ์•„๋‹™๋‹ˆ๋‹ค.

  • ์ •๊ทœ์‹: ํ˜•์‹์ด ๊ณ ์ •๋œ ์ฃผ๋ฏผ๋“ฑ๋ก๋ฒˆํ˜ธ, ์ „ํ™”๋ฒˆํ˜ธ, ๋ฉ”์ผ์ฃผ์†Œ ๋“ฑ์˜ 1์ฐจ ํ•„ํ„ฐ๋ง (์†๋„์™€ ์ •ํ™•์„ฑ ๋ณด์žฅ)

  • NER ๋ชจ๋ธ: ์ด๋ฆ„, ์ฃผ์†Œ, ๊ฐ€๋งน์ ๋ช… ๋“ฑ ๋น„์ •ํ˜• ํ…์ŠคํŠธ ๋ฐ ๋ณ€์น™์  ํŒจํ„ด ํƒ์ง€ (์œ ์—ฐ์„ฑ๊ณผ ์žฌํ˜„์œจ ๋ณด์žฅ)

์ €ํฌ๋Š” ์ด ๋‘ ๊ฐ€์ง€๋ฅผ ๊ฒฐํ•ฉํ•œ ํ•˜์ด๋ธŒ๋ฆฌ๋“œ ํŒŒ์ดํ”„๋ผ์ธ์„ ๊ตฌ์ถ•ํ•จ์œผ๋กœ์จ, ์ •๊ทœ์‹์˜ '์ •ํ™•์„ฑ'๊ณผ ๋”ฅ๋Ÿฌ๋‹์˜ '์œ ์—ฐ์„ฑ'์ด๋ผ๋Š” ๋‘ ๋งˆ๋ฆฌ ํ† ๋ผ๋ฅผ ๋ชจ๋‘ ์žก์„ ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค.

3.2 LLM์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒŒ ์ •๋‹ต์ผ๊นŒ?

3.2 LLM์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒŒ ์ •๋‹ต์ผ๊นŒ?

์ตœ๊ทผ LLM์ด ๋ณด์—ฌ์ฃผ๋Š” ๋ฌธ๋งฅ ์ดํ•ด๋ ฅ์€ ๋†€๋ผ์šด ์ˆ˜์ค€์ž…๋‹ˆ๋‹ค. ํ”„๋กœ์ ํŠธ ์ดˆ๊ธฐ์—๋Š” ์ €ํฌ ์—ญ์‹œ "๊ทธ๋ƒฅ LLM์—๊ฒŒ ๋งˆ์Šคํ‚น์„ ์‹œํ‚ค๋ฉด ๋˜์ง€ ์•Š์„๊นŒ?"๋ผ๋Š” ๊ณ ๋ฏผ์„ ํ–ˆ์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ํ•˜๋ฃจ์—๋„ ์ˆ˜์–ต๊ฑด ์ด์ƒ์„ ์ฒ˜๋ฆฌํ•˜๋Š” ๊ธˆ์œต๊ถŒ์˜ ๋Œ€์šฉ๋Ÿ‰ ๋กœ๊ทธ ์‹œ์Šคํ…œ์ด๋ผ๋Š” ํŠน์ˆ˜ํ•œ ํ™˜๊ฒฝ์„ ๊ณ ๋ คํ–ˆ์„ ๋•Œ, ์ถ”๋ก ์†๋„(Latency)๊ฐ€ ์ค‘์š”ํ–ˆ์Šต๋‹ˆ๋‹ค.



1) 1,000์ž ์ฒ˜๋ฆฌ ์‹คํ—˜ : Latency์˜ ์ฐจ์ด

์ƒ์„ฑ๋œ ๊ธˆ์œต ์ƒ๋‹ด ๋กœ๊ทธ 1,000์ž ํ…์ŠคํŠธ๋ฅผ ๋Œ€์ƒ์œผ๋กœ ์ถ”๋ก  ์†๋„๋ฅผ ์ธก์ •ํ•ด๋ณด์•˜์Šต๋‹ˆ๋‹ค.

  • LLM (OpenRouter API, gpt-5-mini): ํ‰๊ท  47์ดˆ

์ด๋ฏธ์ง€ 4. LLM ์‹คํ—˜ ๊ฒฐ๊ณผ

  • Hybrid Approach: ํ‰๊ท  0.1์ดˆ

์ด๋ฏธ์ง€ 5. Hybrid Approach ์‹คํ—˜ ๊ฒฐ๊ณผ

๋ฌด๋ ค 470๋ฐฐ์˜ ์†๋„ ์ฐจ์ด๊ฐ€ ๋ฐœ์ƒํ–ˆ์Šต๋‹ˆ๋‹ค. ํ•˜๋ฃจ ์ˆ˜์–ต ๊ฑด์˜ ๋กœ๊ทธ๊ฐ€ ์Ÿ์•„์ง€๋Š” ํŒŒ์ดํ”„๋ผ์ธ์—์„œ ์ด์ •๋„์˜ Latency๋Š” ๊ณง ์‹œ์Šคํ…œ ๋งˆ๋น„๋ฅผ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค. ์™œ ์ด๋Ÿฐ ์ฐจ์ด๊ฐ€ ๋ฐœ์ƒํ• ๊นŒ์š”?



2) ์†๋„์˜ ์›์ธ : Sequential vs Parallel

๊ฐ€์žฅ ํฐ ์ด์œ ๋Š” ๋ชจ๋ธ์˜ ์ž‘๋™๋ฐฉ์‹์— ์žˆ์Šต๋‹ˆ๋‹ค.

  • LLM (Autoregressive): "๋‚˜๋Š”" โ†’ "์„œ์šธ์—" โ†’ "์‚ฐ๋‹ค" ์ฒ˜๋Ÿผ ๋‹จ์–ด๋ฅผ ํ•˜๋‚˜์”ฉ ์ˆœ์ฐจ์ ์œผ๋กœ ์ƒ์„ฑ(Sequential Generation)ํ•ฉ๋‹ˆ๋‹ค. 1,000์ž๋ฅผ ์ถœ๋ ฅํ•˜๋ ค๋ฉด ๋ชจ๋ธ์€ 1,000๋ฒˆ์˜ ์ถ”๋ก ์„ ๋ฐ˜๋ณตํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ๋ฌธ์„œ๊ฐ€ ๊ธธ์–ด์งˆ์ˆ˜๋ก ์‹œ๊ฐ„์€ ์ถœ๋ ฅ ํ† ํฐ ์ˆ˜์— ๋น„๋ก€ํ•˜์—ฌ ๋Š˜์–ด๋‚ฉ๋‹ˆ๋‹ค.

  • NER (Encoder-only): ๋ฐ˜๋ฉด BERT ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์€ ๋ฌธ์žฅ ์ „์ฒด๋ฅผ ํ•œ ๋ฒˆ์— ๋ด…๋‹ˆ๋‹ค. ์ž…๋ ฅ๋œ ํ…์ŠคํŠธ๊ฐ€ ๊ธธ์–ด๋„ ์œ„์น˜ ์ž„๋ฒ ๋”ฉ(Positional Embedding) ์‚ฌ์ด์ฆˆ ๋‚ด์˜ ๋ชจ๋“  ํ† ํฐ์˜ ๋ผ๋ฒจ์„ ๋‹จ ํ•œ ๋ฒˆ์˜ ์—ฐ์‚ฐ์œผ๋กœ ๋™์‹œ์— ๊ณ„์‚ฐํ•ฉ๋‹ˆ๋‹ค.



3) ์ฒด๊ธ‰์˜ ์ฐจ์ด : ์ˆ˜๋ฐฑ M vs ์ˆ˜๋ฐฑ B

๋ชจ๋ธ์˜ ํฌ๊ธฐ, ์ฆ‰ ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๋Š” ๋ฐฐํฌ(Deployment) ํ™˜๊ฒฝ์„ ๊ฒฐ์ •์ง“์Šต๋‹ˆ๋‹ค.

  • LLM (์ˆ˜์‹ญ~์ˆ˜์ฒœ์–ต ํŒŒ๋ผ๋ฏธํ„ฐ): ์ตœ์†Œ ์ˆ˜์‹ญ GB์˜ VRAM์ด ํ•„์š”ํ•˜๋ฉฐ, ๊ณ ์„ฑ๋Šฅ GPU ์„œ๋ฒ„๊ฐ€ ํ•„์ˆ˜์ ์ž…๋‹ˆ๋‹ค.

  • NER (์ˆ˜์–ต ํŒŒ๋ผ๋ฏธํ„ฐ): BERT-base ๊ธฐ์ค€ ์•ฝ 110M๊ฐœ์— ๋ถˆ๊ณผํ•ฉ๋‹ˆ๋‹ค.

๊ธˆ์œต๊ถŒ์˜ On-premise ํ™˜๊ฒฝ์€ ์ปดํ“จํŒ… ๋ฆฌ์†Œ์Šค๊ฐ€ ์ œํ•œ์ ์ž…๋‹ˆ๋‹ค. ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ ํ•˜๋‚˜๋ฅผ ๋„์šฐ๊ธฐ ์œ„ํ•ด ์ˆ˜์ฒœ๋งŒ์›์งœ๋ฆฌ GPU ์„œ๋ฒ„๋ฅผ ์ฆ์„คํ•˜๋Š” ๊ฒƒ์€ ๋น„์šฉ ํšจ์œจ์„ฑ ์ธก๋ฉด์—์„œ ๋ถˆ๊ฐ€๋Šฅ์— ๊ฐ€๊น์Šต๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด ๊ฒฝ๋Ÿ‰ํ™”๋œ NER ๋ชจ๋ธ์€ ๊ฐ€๋ฒผ์šด GPU๋งŒ์œผ๋กœ๋„ ์ถฉ๋ถ„ํžˆ ์šด์˜ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.



4) API์˜ ๋”œ๋ ˆ๋งˆ : ๋ณด์•ˆ๊ณผ ๋น„์šฉ

"๊ทธ๋Ÿผ ์„œ๋ฒ„ ์ฆ์„ค ์—†์ด ์™ธ๋ถ€ API๋ฅผ ์“ฐ๋ฉด ๋˜์ง€ ์•Š๋‚˜?"๋ผ๊ณ  ๋ฐ˜๋ฌธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์—ฌ๊ธฐ์—” ๋‘ ๊ฐ€์ง€ ์žฅ๋ฒฝ์ด ์กด์žฌํ•ฉ๋‹ˆ๋‹ค.

  1. ๋ณด์•ˆ: ๊ธˆ์œต ๋ฐ์ดํ„ฐ์—๋Š” ๋ฏผ๊ฐํ•œ ๊ฐœ์ธ์ •๋ณด๊ฐ€ ํฌํ•จ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ๋งˆ์Šคํ‚นํ•˜๊ธฐ ์œ„ํ•ด ์™ธ๋ถ€ ์„œ๋ฒ„(OpenAI ๋“ฑ)๋กœ ์›๋ณธ ๋ฐ์ดํ„ฐ๋ฅผ ์ „์†กํ•˜๋Š” ๊ฒƒ์€ ๊ทธ ์ž์ฒด๋กœ ๋ณด์•ˆ ๊ทœ์ • ์œ„๋ฐ˜์ž…๋‹ˆ๋‹ค.

  2. ๋น„์šฉ: API๋Š” ํ† ํฐ ๋‹จ์œ„๋กœ ๊ณผ๊ธˆ๋ฉ๋‹ˆ๋‹ค. ํ…Œ๋ผ๋ฐ”์ดํŠธ(TB) ๋‹จ์œ„์˜ ๋กœ๊ทธ๋ฅผ ๋งค์ผ ์ฒ˜๋ฆฌํ•œ๋‹ค๋ฉด, ์ฒœ๋ฌธํ•™์ ์ธ API ๋น„์šฉ์ด ๋ฐœ์ƒํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.

์ •ํ•ด์ง„ ๊ฐœ์ธ์ •๋ณด๋ฅผ ๋น ๋ฅด๊ณ  ๊ฐ€๋ณ๊ฒŒ ์ฐพ์•„๋‚ด๋Š” ๋ณธ ํ”„๋กœ์ ํŠธ์˜ ๋ชฉ์ ์—๋Š” ๋А๋ฆฌ๊ณ  ๋ฌด๊ฑฐ์šด LLM๋ณด๋‹ค ํ†ต์ œ ๊ฐ€๋Šฅํ•œ BERT-CRF ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•œ ๊ฒƒ์ด ์ฃผ์–ด์ง„ ์ œ์•ฝ ์‚ฌํ•ญ ์•ˆ์—์„œ ๋ฌธ์ œ๋ฅผ ๊ฐ€์žฅ ์ž˜ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ๋Š” ํ•ฉ๋ฆฌ์ ์ธ ์„ ํƒ์ด์—ˆ์Šต๋‹ˆ๋‹ค.

์ œ๋…ผ์˜ ๋ณด์•ˆ ๊ธฐ์ˆ , ๊ทธ๋ฆฌ๊ณ  ์šฐ๋ฆฌ๊ฐ€ ๋‚˜์•„๊ฐ€๋Š” ๋ฐฉํ–ฅ

์ง€๊ธˆ๊นŒ์ง€ ์ œ๋…ผ์˜ ๊ฐœ์ธ์ •๋ณด ๋งˆ์Šคํ‚น ์‹œ์Šคํ…œ ๊ตฌ์ถ• ์—ฌ์ •์„ ๊ณต์œ ํ•ด ๋“œ๋ ธ์Šต๋‹ˆ๋‹ค. ๋‚ด๋ถ€ ๋ฐ์ดํ„ฐ ์ ‘๊ทผ์ด ์ œํ•œ๋œ ํ™˜๊ฒฝ์—์„œ '์ œ๋กœ๋ฒ ์ด์Šค ๋ฐ์ดํ„ฐ ๊ตฌ์ถ•'์„ ์ˆ˜ํ–‰ํ•˜๊ณ , NER ํƒœ์Šคํฌ์˜ ์ค‘์š”ํ•œ ๋ฌธ์ œ์ธ 'ํด๋ž˜์Šค ๋ถˆ๊ท ํ˜•'์„ ๋‹ค์–‘ํ•œ ์ „๋žต์œผ๋กœ ํ•ด๊ฒฐํ•˜๋ฉฐ, LLM๋ณด๋‹ค ๋น ๋ฅธ ์‹ค์‹œ๊ฐ„ ์ฒ˜๋ฆฌ๋ฅผ ๋‹ฌ์„ฑํ•˜๊ธฐ๊นŒ์ง€์˜ ๊ณผ์ •์„ ๋‹ค๋ค˜์Šต๋‹ˆ๋‹ค.

์ด ๊ณผ์ •์—์„œ ๊ฐœ๋ฐœ๋œ ๊ฐœ์ธ์ •๋ณด ๋งˆ์Šคํ‚น ๊ธฐ์ˆ ์€ ์‹ค์ œ ์ œ๋…ผ์˜ ์ œ๋…ธ์Šค(GenOS) ํ”Œ๋žซํผ๊ณผ ์›์—์ด์ „ํŠธ(OneAgent)์— ํ•ต์‹ฌ ๋ณด์•ˆ ๋ชจ๋“ˆ๋กœ ํƒ‘์žฌ๋˜์–ด ๊ธˆ์œต๊ถŒ ๋ฐ ๊ณต๊ณต๊ธฐ๊ด€ ๊ณ ๊ฐ์‚ฌ์—์„œ ํ™œ๋ฐœํžˆ ์šด์˜๋˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

  • ์ œ๋…ธ์Šค: ์ƒ์„ฑํ˜• AI ํ”Œ๋žซํผ ๋‚ด์—์„œ ๋ฐ์ดํ„ฐ๊ฐ€ LLM์œผ๋กœ ์ž…๋ ฅ๋˜๊ธฐ ์ „, ํ˜น์€ RAG ํŒŒ์ดํ”„๋ผ์ธ์—์„œ ๋ฌธ์„œ๋ฅผ ์ฒ˜๋ฆฌํ•  ๋•Œ ๊ฐœ์ธ์ •๋ณด๋ฅผ ์ž๋™์œผ๋กœ ํƒ์ง€ยท๋งˆ์Šคํ‚นํ•˜๋Š” ์•ˆ์ „์žฅ์น˜์ž…๋‹ˆ๋‹ค.

  • ์›์—์ด์ „ํŠธ: AI ์—์ด์ „ํŠธ๊ฐ€ ๊ณ ๊ฐ ๋ฐ์ดํ„ฐ๋ฅผ ๋‹ค๋ฃจ๋Š” ๊ณผ์ •์—์„œ ๋ฏผ๊ฐ ์ •๋ณด๊ฐ€ ์™ธ๋ถ€๋กœ ์œ ์ถœ๋˜์ง€ ์•Š๋„๋ก ์—์ด์ „ํŠธ ๋ ˆ๋ฒจ์˜ PII ํ•„ํ„ฐ๋ง์„ ๊ธฐ๋ณธ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.



๋” ๋†’์€ ์ˆ˜์ค€์˜ ๋ฐ์ดํ„ฐ ๋ณด์•ˆ์„ ์œ„ํ•œ ์ œ๋…ผ์˜ ๊ณ ๋ฏผ

์ œ๋…ผ์€ ์—ฌ๊ธฐ์„œ ๋” ๋‚˜์•„ ์‚ฐ์—…๋ณ„(์˜๋ฃŒ, ๋ฒ•๋ฅ , ๊ณต๊ณต ๋“ฑ) ํŠนํ™” ๋ณด์•ˆ ๋ชจ๋ธ๋กœ์˜ ํ™•์žฅ์„ ์ค€๋น„ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ์˜จํ”„๋ ˆ๋ฏธ์Šค ํ™˜๊ฒฝ์— ์ตœ์ ํ™”๋œ ๋ชจ๋ธ ๊ฒฝ๋Ÿ‰ํ™”์™€ ์‹ ๊ทœ ๊ฐœ์ธ์ •๋ณด ์œ ํ˜•์— ์ฆ‰๊ฐ ๋Œ€์‘ํ•˜๋Š” ์—…๋ฐ์ดํŠธ ์ฒด๊ณ„๋ฅผ ๊ณ ๋„ํ™”ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

LLM์ด ์‚ฐ์—… ํ˜„์žฅ์— ๋ณดํŽธํ™”๋˜๋Š” ์‹œ๋Œ€์—, "AI๊ฐ€ ๋‹ค๋ฃจ๋Š” ๋ชจ๋“  ๋ฐ์ดํ„ฐ ๊ฒฝ๋กœ๋Š” ๊ธฐ๋ณธ์ ์œผ๋กœ ๋งˆ์Šคํ‚น๋˜์–ด์•ผ ํ•œ๋‹ค(Security by Default)"๋Š” ๊ฒƒ์ด ์ œ๋…ผ์˜ ์ฒ ํ•™์ž…๋‹ˆ๋‹ค. ๊ฐœ์ธ์ •๋ณด ๋ณดํ˜ธ๊ฐ€ ์„ ํƒ์ด ์•„๋‹Œ ํ•„์ˆ˜ ๊ตฌ์„ฑ ์š”์†Œ๊ฐ€ ๋˜๋„๋ก, ์ œ๋…ผ์€ ๊ธฐ์ˆ  ๊ฐœ๋ฐœ๊ณผ ๋”๋ถˆ์–ด ์•ˆ์ „ํ•œ AI ํ™œ์šฉ ํ‘œ์ค€์„ ์ˆ˜๋ฆฝํ•˜๋Š” ๋ฐ ์•ž์žฅ์„œ๊ฒ ์Šต๋‹ˆ๋‹ค.

์ถœ์ฒ˜

[1] Cheng, J., et al. 2019. "Entity linking for Chinese short texts based on BERT and entity name embeddings." China Conference on Knowledge Graph and Semantic Computing (CCKS). https://conference.bj.bcebos.com/ccks2019/eval/webpage/pdfs/eval_paper_2_1.pdf
[2] AI Hub. 2024. โ€œ๋ฏผ๊ฐ„ ๋ฏผ์› ์ƒ๋‹ด LLM ์‚ฌ์ „ํ•™์Šต ๋ฐ Instruction Tuning ๋ฐ์ดํ„ฐโ€. https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&dataSetSn=71844
[3] Aghakasiri, Kiana, et al. 2025. "Not What the Doctor Ordered: Surveying LLM-based De-identification and Quantifying Clinical Information Loss." Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing. https://arxiv.org/abs/2509.14464
[4] Savkin, Maksim, Timur Ionov, and Vasily Konovalov. 2025. "SPY: Enhancing Privacy with Synthetic PII Detection Dataset." Proceedings of the 2025 Conference of the Nations of the Americas Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 4: Student Research Workshop). https://aclanthology.org/2025.naacl-srw.23/
[5] DeuรŸer, Tobias, et al. 2025. "Resource-Efficient Anonymization of Textual Data via Knowledge Distillation from Large Language Models." Proceedings of the 31st International Conference on Computational Linguistics: Industry Track. https://aclanthology.org/2025.coling-industry.20/
[6] Zaratiana, Urchade, et al. 2024. "Gliner: Generalist model for named entity recognition using bidirectional transformer." Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers). https://aclanthology.org/2024.naacl-long.300/
[7] Hahm, Sungen, et al. 2025. "Thunder-DeID: Accurate and Efficient De-identification Framework for Korean Court Judgments." arXiv preprint arXiv:2506.15266. https://aclanthology.org/2025.findings-emnlp.682/

๋ชฉ์ฐจ

ยฉ2026 GenON

13F, 2621 Nambusunhwan-ro, Gangnam-gu, Seoul, 06267, Republic of Korea

|

|

|

ยฉ2026 GenON

13F, 2621 Nambusunhwan-ro, Gangnam-gu, Seoul, 06267, Republic of Korea

|

|

|

ยฉ2026 GenON

13F, 2621 Nambusunhwan-ro, Gangnam-gu, Seoul, 06267, Republic of Korea

|

|

|