1. 언어학 용어
ㅇ 코퍼스 (Corpus) : 말뭉치, Text Dataset
- 자연어 연구를 위해 특정 방식으로 추출된 언어 표본들의 집합
- 例) 신문 기사 코퍼스, SNS 대화 코퍼스, 학습자 코퍼스 등
ㅇ 품사 (part of word) : 단어를 기능,형태,의미에 따라 나눈 갈래
- 例) (명사,조사,동사,형용사,부사 등)
ㅇ 형태소 (形態素, Morpheme) : 의미를 갖는 요소로서는 더이상 분석할 수 없는 최소의 문법 단위
ㅇ 띄어쓰기 (spacing words) : 단어의 구분 (공백으로 단어 간을 분리함)
- 띄어쓰기 함 : 영어,한글 등
. 특히, 한글은 띄어쓰기를 통해 조사,어미,접사 등의 기능어와 체언,용언을 구분함
- 띄어쓰기 안함 : 중국어,일어 등
ㅇ 어절 (Eojeol) : 띄어쓰기 단위로 나뉜 문자열 단위
- 하나 이상의 형태소로 구성
- 例) "나는 학교에 갔다" → 3개의 어절로 구성됨 : "나는", "학교에", "갔다"
ㅇ 음운 (音韻, phoneme) : 의미를 구별해주는 소리의 추상적 단위 전체
- 음소 (音素, Phoneme) : 의미를 구별해주는 최소 소리 단위
. 例) "발"과 "팔" → /ㅂ/, /ㅍ/은 다른 음소 임
- 음절 (音節, Syllable) : 소리의 덩어리 단위, 즉 한 번에 나는 소리의 단위
. 例) 실제 발음되는 소리 묶음 : "가방" → "가","방" 등
- 운소 (韻素, Suprasegmental / Prosodeme) : 소리의 길이(음장), 높낮이(억양), 세기(강세) 등
. 즉, 장단(length),억양(intonation),강세(stress) 등 말의 뜻의 분화에 관여하는,
소리의 요소들을 일컬음
ㅇ 한국어 : 한반도 전역에서 쓰이는 언어
- 문자 언어로써, 한글을 사용. 여기서, 한글은 음소 문자 임
ㅇ 문자의 구분
- 음소 문자 (音素 文字, phonemic alphabet)
. 말을 구성하는 소리의 최소 단위(=음소)를 하나하나 표기 가능한 문자 체계
. 例) 영어, 한글 등
- 음절 문자 (syllabary) : 음절 단위로 문자를 표기
. 例) 일본어의 히라가나, 가타카나 → 'か'(ka), 'と'(to) 등
- 표의 문자 (logogram) : 의미 단위(낱말)를 표기
. 例) 한자 → '人(사람)', '山(산)' 등