「今までの機械翻訳では、人が言葉の意味を大量にデータベースに登録しなければ翻訳をすることはできなかった。
しかし労力をたくさん使った割には、意味が全く伝わらない訳文が作成されることもあった。
だが、ディープラーニングによるAI翻訳は凄い。
この数年で劇的な成長を遂げているのだ。
機械学習の結果、「ラーニング」と「教育」という言葉は、ごく近い空間に存在すると認識される。
その結果、2つの異なる言葉は「似たような意味である」と判断され翻訳される。
このような学習効果により、ディープラーニング機械翻訳の精度が上がってきた。
しかし、実は意味などを理解しているわけではない。
「夏休みに僕は秋田と青森に行った」という文章でも、前後の文脈で意味が大きく異なることがある。
「僕は秋田君と一緒に青森に行った」のか、「僕は秋田県と青森県に行った」のか、「僕は秋田市と青森市に行った」のか、そのニュアンスをとらえて文章全体を翻訳するのは、現在のディープラーニング機械翻訳では難しいのだ。
ニュアンス、前後の文脈、文化の違いなどに着目し、様々な要素を判断して、ひとつの意味を持つ文章にするのは相当時間がかかるのではないかと想像される。
話は変わるが、私は趣味の一環で枕草子を人力(じんりき)で翻訳している。
岩波、角川など様々な訳本を読んだのだが、自分に知識がないせいか意味の通じない箇所が数多く出て来て一気に読破して楽しむことが出来ないからだ。
わからないので、否応なしに原文にあたる。
すると、底本(元にした流布本)と違う言葉になっていることもある。
意味が通じないと判断したので、訳者が違う系統の本から流用しているケースもあるのだ。
現代に伝わっている流布本だって、そもそも作者(清少納言)が間違えて書いたところがあるかもしれない。
更に、書写した人間が書き間違えたケース、自分勝手に解釈して書き違えたケース、捏造したケース、色々あると思う。
だから、いろいろな系統本が存在するのだ。
昔の本だから仕方がないと言えば仕方がない。
最近亡くなられた橋本治の桃尻語訳枕草子は面白いし意味が良くわかる。
ただ異訳しすぎだなぁと。
島内裕子さんの訳は凄く良い。(島内裕子さんの訳は超お勧めです!何を読んでもすごく上手で助かっています。)
だけど、意味を伝えるための説明がすごく長い。原文の倍近くになっているのではないかと(笑)。
ゆえに、仕方がないことだが原文の良さは失われている。
(個人的意見だが、他の現代語訳に較べると最も原文の良さは保たれているのではないかと。)
私の翻訳のやり方は、
1.全く読めない原文を笠間影印叢刊刊行会が編纂した「字典かな―出典明記」を使って解読する。
2.それでも読めなかったら、他の系統本の原文にあたり、解読を試みる。
3.やっとこさ解読した文章を複数の古語辞典で引き、意味を調べ訳す。
4.清少納言の原文のリズム感や言い回しの美しさを損なわない言葉を当てはめる。
こんな作業をしているので、もうかれこれ1年を超えるけれど、まだ50段しか終わっていない(笑)。
なので、、、まずは、原文をAIの得意分野の画像解析処理で正しい文字に起こして、そのあとで、AI翻訳する。しかも、平安時代の文化や常識を理解したうえで、清少納言の持つ独特のリズムや言い回しを保持して翻訳してくれたら最高なのにと。。。
そうすれば、他のたくさんの古典もみんなサクサク読めるようになるのに!
但し、言語の翻訳よりも、古文の翻訳の方が相当むずかしいだろう。
なぜなら、古文では主語が頻繁に省略されるからだ。
よって、尊敬語や謙譲語その他の言い回しに従って主語が誰なのかを類推し補わなければならないのだ。
有名な古典の研究者達でさえ、同じ文章に対して、全く違う主語を補っている例が良く見受けられる。
枕草子の例では、、、
同じ文章なのに、主語が一条天皇であったり中宮定子(藤原定子)であったりする訳本が存在する。
尊敬語が使われている時に、より上の位の方が2人以上いる場合、どちらに対する尊敬語であるのかの判断に迷ったりしたのだろう。
有名な研究者ですら読み間違える古文。
どれくらいの未来になれば古文を上手に翻訳できるAIが出てくるのだろう。
古典では、リズム感や抑揚、韻を踏んでいるところなど、その文章自体に内容を超えた魅力がある。
この魅力を損なわないようなAI古文翻訳機が出来れば本当に良いのになぁ、、、と、心から思う。
まだまだ、解決しければいけない課題は山積みである。」
と、2020年9月8日に書いてから、4か月半が過ぎた。
あれから相当ペースをあげたお陰で現時点で220段の訳を終えた。
このペースなら今年の夏頃には訳文を公開できるかもなぁー。