1. 언어의 구성 요소
ㅇ 언어이란?,
- 의미 있는 요소들이 여러 방법으로 결합하여 문장을 생성하는 규칙이 지배하는 의사소통 체계
ㅇ 언어를 구성하는 최소의 요소로는 어떤 것들이 있을까?
- 문법 (규칙성) : 구문의 표현 규칙 (언어의 생성 메커니즘)
* 어휘 (형태론) : 구문에 기반을 두고있는 구성 요소들 (토큰의 구조)
- 구문/구조/형식 (통사론) : 언어가 구성되는 순서/방법/구조 (언어의 구조)
- 내용/의미 (의미론) : 형태소,단어,문장,담화 등의 단위가 주는 의미(Meaning)
2. 형태소 (Morpheme, 形態素)
ㅇ 의미를 가지는 요소로서는 더이상 분석할 수 없는 최소의 문법 단위
ㅇ 영어,한글에서 형태소의 비교
- 영어에서는, 형태소가 단순함 (例: 단수형 명사와 's'를 붙인 복수형 등 규모가 작은 편임)
- 한글에서는, 형태소가 풍부하게 있음 (例: `책`+`가방` => 두 형태소 합쳐짐 => `책가방`)
3. 형태론, 통사론
ㅇ 형태론 (形態論, Morphology)
* 언어학에서, 낱말(단어)의 어형 변화(inflections)를 연구
. 즉, 자음,모음으로부터 낱말이 만들어지는 규칙을 연구
- 단어의 어형(語形) 변화를 다루는 문법의 한 분야
. 형태소들이 결합하여 낱말을 형성하는 체계/규칙
. 형태소 및 낱말을 기본 단위로 함
※ 형태론, 통사론의 비교
- 형태론 (Morphology)은, 단어의 어형 변화/교체를 연구하고,
. 형태소들이 단어를 구성하는 원리를 연구
- 통사론 (Syntax)은, 단어들의 결합을 연구대상으로 함
. 단어들이 문장을 구성하는 원리를 연구
4. 어휘 (Lexeme) : 형태론
ㅇ 어휘 항목 (Lexeme, Lexical Element), 어휘 토큰 (Lexical Token)
- 가장 낮은 단위로써 의미적으로 구분 가능한 요소들
. 문장 구성 요소
- [전산]
. 각 토큰을 이루는 문자열들을 모아놓은 집합체
. 때론, 심볼/단어/예약어/키워드 등을 총칭
.. 例) 수치 리터럴, 연산자, 특수어 등 각각으로 구분 가능
. 사실상, 프로그램은,
.. 문자들의 열거 보다는 어휘 항목들로 구성된 문자열 임
* 한편, 토큰(Token)은, 각 어휘 항목을 구분하는 최소 분류 단위
. 즉, 의미적으로 구분되는 최소 단위 (어휘 항목의 분류 => 토큰)
.. 例) 예약어, 식별자, 수치 리터럴, 연산자 등
ㅇ 어휘 구조 (Lexical Structure)
- 구문에 기반을 두고있는 구성요소들의 형태 구조 (즉, 토큰의 형태 구조)
ㅇ 어휘 분석 (Lexical Analysis)
- 의미있는 문법 단위로 분리하는 것
- 분리 순서 (토큰화) 例)
. [언어] 문단 -> 문장 -> 단어 -> 형태소
. [전산] 원시 프로그램을 읽어들여, 토큰이라는 의미있는 문법 단위로 분리하게 됨