Xユーザーである筆者にとって、毎日Xで目にする投稿で「AI」という枕がつかない投稿はありません。連日、ありとあらゆる分野や場面で「AI」という冠がついている広告、記事、商品名、サービス名が目に飛び込んできます。筆者がかかわる翻訳執筆という世界でも「AI翻訳」という用語が頻繁に飛び交う毎日。そして、この流れで散見されるのが「AI翻訳は精度が高い。ですから、早く安くできる」という魔法のようなコピーで翻訳を必要としている企業に訴えかけてきます。しかしちょっと待ってください。「精度が高い」と言いますが、どのような分野のどのような文章にも一律に「精度が高い」と言えるのでしょうか。この疑問に突っ込んで具体的に考える人がどのくらいいるのかと考えると、ほんのわずかな人に限られるのではないでしょうか。
AI翻訳(私は翻訳という次元とはほどとおいということで『言語処理』を使います)の処理の基盤になっているのはアルゴリズムという確率計算です。多くのサンプル文章を基に、「この動詞の訳語として訳語サンプルではどう訳しているか」というデータを集めて学習させてデータセットを作り、このデータセットを基に「生成結果」を出力します。この過程をAI関係筋の方たちから見て「AI翻訳」と称しているのでしょう。
ただし、上述した「確率計算」が基ですから、実際目の前にある文章を「見てもないし、考えてもないし、検証もしていない」わけです。この点を翻訳関係者以外の多くの方たち、特にこれから国語をしっかり学ばなければならない小中高校生に知っていただきたいです。
翻訳とは「単語vs単語」または「1文vs1文」という2次元変換ではありません。1.この文章は何のために翻訳するのか(企画作業の目的)。2.読者想定はどういう人たちか。3.どういう分野に関する文章か、または大きく出版、映像、実務のどのカテゴリーか。4.どのような背景状況を基に翻訳の必要性が出てきたのか(原因、誘因)。5.最初の段落から最後の段落までのロジック構成はどうなっているか分析と検証。6.ロジック構成を基に前後の流れをどう計算するか。7.今取り組んでいる段落は全体構成においてどういう位置付けにあるか。8.今取り組んでいる文の前後はどういう流れになっていて、対象文の存在意義は何か。9.以上を基にして一番適切な訳し方はどうあるべきか。10.実際にここまでのプロセスを経たうえで、やっと辞書の語釈を調べたり、辞書から類語辞典や背景専門書を調べたり……という膨大で複雑な作業を経て、1文であっても1単語であっても二次元的にではなく「三次元に考察」して文章を作っていきます。
以上の膨大かつ複雑な行程を見れば、上述したAI言語処理のアルゴリズム計算で割り出した「過去例から見て一番当たる確率がおおいであろう処理結果」ではないということをご理解いただけますでしょうか。まず、この点で「翻訳とはまったく簡単どころか複雑で毎回唯一無二の表現を模索する過程」であると言えます。
では、「安い」についてはどうでしょうか。第4パラグラフで示したように、最低でも10項目ありましたね。カテゴリーをもっと細分化すれば、さらに細かい肯定が増えます。「AI言語処理過程」だけで考えればなんとなく文字のような状態のものが目の前には出現します。しかし、この目の前にだされた文字状態の羅列は上述最低クリアすべきであろう10項目はまったく考慮されていません。反対に、なぜか数字や否定表現にAI言語処理は弱いとされているため、数字の明らかなミスや「否定なのに肯定になる」「肯定なのに否定になる」というような逆転現象が起こりえます。実際、過去にAI言語処理に類する機械言語処理を使った某自治体災害翻訳で、「川が氾濫しそうなので川に近寄ってはいけない」という内容が「川に近寄ってください」という反対の出力結果となり問題になったことも。
つまり、ときに致命的なミスがある言語処理の見直しチェックには膨大な時間と集中力を要するわけです。それも、上述した10の項目をまったく考慮していないからです。人間ならば「避難を呼びかけるロジックの流れで、市民に呼び掛ける注意という内容なのに、なぜ川に近寄れと真逆のことをいうのだろう。おかしい」と気が付くはずですが、言語処理では「考察プロセス」がないので、ありえない誤訳が出てきうるのです。
さらに問題なのは、このような致命的部分がどこにあるのかさえ最初から最後まで文字の羅列をひとつひとつ検証しない限り、見つけられないという点がとても面倒で時間を要します。ということで「AI言語処理のチェックには超面倒な手間と時間がかかるので経費は安いどころか高くつく」という結論にいたります。
百歩譲ってもし「AI言語処理が早い」を実感できる方がいるとすれば、ターゲット言語とオリジナル言語の両方をよく知っていて、対象とする文章の分野や専門用語など背景情報に熟知なさっている方に限られるでしょう。さらに、少し出力結果がおかしいなという部分を自力で批判的に間違いを正して理解できる方に限られます。つまり、自分だけが読み自分だけが利用する「私的利用」に限られるでしょう。お勧めはしませんが万一商用でお使いになるならば「ご自分で出力結果をチェック検証ができる方」に限られるでしょう。この部分をクリアできるかどうかをご確認の上、AIとついたものを利用するかしないかのご判断をと思います。いわゆる費用対効果の問題です。何か新しいものが出てきたときにそのメリットとデメリットを確かめ、デメリット面をどれだけ自力で克服できるかという。その結果、両方を相殺してメリットの方が大きい場合に限って利用なさるとよいと思います。
AI言語処理を利用したい発注したいというお客様、またはAI言語処理って何?と思っていらっしゃる皆様に少しでもご理解をいただけますと幸いです。
(注記:今回エッセイのテーマとは外れるのでここには取り上げませんでしたが、AI言語処理「過去例を集めてデータセットを作る」過程において、多くのサンプルデータが著作権者の許諾なしに収集されている事実は今後解決すべき大きな点であると考えます。)