출처: https://nhj12311.tistory.com/296 [This is IT]
본문으로 바로가기

구글의 영한 번역 왜 잘 안될까?

category FUN QUESTION- 2020. 8. 2. 10:00
반응형

나는 유튜브를 통해 많은 미디어를 접하지만, 교육의 창구로써 사용하기도 한다. 정말 대중화되고 많은 분들이 본인의 지식을 남에게 알려주기 위한 목적으로 영상을 많이 올린다. 특히나 대중적인 포토샵이나 일러스트 프리미어 프로 같은 경우는 굳이 학원들 다니지 않아도 배울 수 있는 부분이 많은 만큼 많은 영상이 올라와있다. 그러나 그건 수요가 많은 만큼 찾는 사람도 많으니 영상이 많은 건 당연한 일이다. 

 

다만 내가 정말 원하고 찾고싶은 영상들은 대부분 외국 영상인 경우가 많았다. 게다가 관심이 많은 영상들은 다른 분들이 자처하여 한글 번역을 올려놓는 경우도 있지만, 대부분은 없다. 그럴 때마다 영어를 잘 못하는 나는 유튜브에 들어있는 자동번역을 택하거나 영어자막을 그대로 옮겨와 파파고 번역기나 구글 번역기에 돌려보곤 했다. 허나 이것도 한계가 있고, 정말 완벽한 번역이 없는 이상 내가 영어를 배우는 것이 편해 보였다. 그러면서 의문이 들곤 했다. 왜 영어를 한국어로 번역하면 다 엉망일까?

 

 

이번에는 2016년 3월로 가보자. 인공지능(딥러닝)과 이세돌의 세기의 바둑 대결이 벌어졌던 날이다. 세상에서 내노라 하는 바둑기사들을 모두 쓰러트리고 0패라는 무시무시한 전력으로 이세돌과의 마지막 대결을 앞두고 있었다. 그렇게 시작된 총 5번의 대국에서 패배를 했던 이세돌을 보며, 알파고의 딥러닝이라는 기술이 이 세상을 바꿀 엄청난 기술이라는 걸 알 수 있었다. 

 

 

딥러닝이란 스스로 학습을 하는 인공지능으로, 나는 유튜브를 통해 많은미디어를 접하지만, 교육의 창구로써 사용하기도 한다. 정말 대중화되고 많은 분들이 본인의 지식을 남에게 알려주기 위한 목적으로 영상을 많이 올린다. 특히나 대중적인 포토샵이나 일러스트 프리미어 프로 같은 경우는 굳이 학원들 다니지 않아도 배울 수 있는 부분이 많은 만큼 많은 영상이 올라와있다. 그러나 그건 수요가 많은 만큼 찾는 사람도 많으니 영상이 많은 건 당연한 일이다. 

 

 

그 이후에는 알파고의 딥러닝 기술이 구글 번역기에 2016년 9월부터 적용되고 영어 > 한국어 번역 서비스가 2016년 11월에 도입되면서 번역의 품질이 상당히 많이 좋아졌다. 하지만 아직도 영어 > 한국어, 혹은 한국어 > 영어로 번역을 하면 완벽하게 번역을 하지못해, 한국어 > 일본어 > 영어 이렇게 한번 중역을 거쳐야 그나마 괜찮은 번역이 나온다는 건 꽤나 불편한 사실이다.

 

그렇다면 왜 딥러닝이라는 스스로 학습하는 인공지능은 왜 한국어번역을 잘 못하는 걸까? 기존에 가지고 있는 데이터를 학습하면서 번역을 한다면 괜찮게 할 수 있지 않을까? 한글만의 특징 때문에 잘 못하는 걸까? 번역을 못한다면 인공지능이 아직 언어장벽을 넘지 못한 부분이 있는 걸까?라는 궁금증이 생겼다.

 

1 한국어 자체가 통용되는 언어가 아니다.

 

말그대로 한글 자체가 전 세계에서 통용되는 언어가 아니기에 기존에 있던 데이터가 많이 부족하다. 게다가 양 언어 간 전반적인 언어체계가 근본적으로 다르기도 하고 문화 또한 차이가 나서 번역기 어려운 부분이 존재한다.

 

2 한국어의 뛰어난 호환성이다.

 

영어 같은경우 자신의 위치가 아니면 뜻이 달라지거나 아예 문맥에 맞지 않아 문장이 되지 않는다. 이 부분은 외국 입장에서 한글을 이해하기 힘든 부분이다. 단 하나의 문장으로 이해를 해보자. 철수가 순희를 만난다 라는 문장은 단어를 바꿔도 그 흐름이 완전히 흐트러지지 않는다.

 

"순희를 만난다 철수가"

"만난다 철수가 순희를"

"철수가 만난다 순희를"

 

주어 목적어 동사가 모두 뒤죽 박죽으로 섞여있어도 한국인이 봤을 때 이해가 되는 문장이 된다. 어쨌든 철수가 순희를 만난다는 문장이기 때문이다. 이는 한글의 특성으로 각자 제 위치에 있을 때 자신이 되는 영어와는 달리 어떤 곳에 있어도 대략 뜻이 맞는다는 건 인공지능이 정말 이해하기 힘든 부분이다. 다른 예를 들어보자면 파란색은 영어로 BLUE지만 한국의 문학작품에서는 푸르다, 청명하다 라는 말과 함께 파란이라는 단어에 여러 뜻으로 해석되곤 한다. 이런 특성 때문에 노벨 작가상이 없는 이유이기도 하다.

 


2020년 한국어와 영어의 언어적 차이에 따른 기계번역의 문제점 이라는 논문을 살펴보면, "한국어에 대응 표현이 없는 영어 표현 중심으로 기계 번역하여 그 결과물의 품질을 분석한 결과 한국어와 영어 간 문법적 차이가 크면 클수록 한국어로 기계 번역품질이 낮게 나온 것으로 나타났다."고한다. 추상 개념을 가진 명사 구문을 한국어로 번역한 결과 제대로 재현되지 않는 경우도 빈번했고, 한국과 서구 간 공간이동에 대한 인지적 차이를 인지하지 못한 체 제대로 된 번역을 하지 못했다.

 

최근 논문들은 동양과 서양사이에서 오는 문화적 차이와 문법적 차이를 지적했고, 그에 따른 인공지능의 인지적 차이로 인해 오류가 발생하고 동떨어진 번역을 한다는 것이다. 일단 그 구조적 차이에서 오는 갭을 줄이고, 인공지능이 둘 사이에 문화적 차이까지 인지해야지만 어느 정도 완전한 번역이 된다. 단순히 해석이 아닌 그 단어를 쓰기 위해서는 그 나라의 문화와 역사까지 모두 알고 있어야만 번역을 제대로 한다는 말이 된다. 현대 기술의 집약체인 딥러닝이 제대로 된 번역을 하기까지에는 아직 갈길이 먼듯하다. 인간 대 인간이 쓴 언어들은 그냥 만들어진 것이 아니라 수만 년이 다져져 만들어진 것이기 때문이다.

 


 

안미영. (2020). 한국어와 영어의 언어적 차이에 따른 기계번역의 문제점과 그에 대한 포스트 에디팅 방향 제안. 영어영문학, 25(1), 103-130.

 

 

 

 

반응형