ChatGPT有多种语言版本,但日本研究人员表示,这款流行的AI聊天机器人对日本语言和文化的复杂性缺乏理解。
一些大型科技公司,如NEC、富士通和软银正在创建纯粹基于日本数据集训练的LLM,以克服这一挑战。
日本东北大学自然语言处理研究员Keisuke Sakaguchi解释说:“目前的公共LLM,如GPT,在英语方面表现出色,但由于字母系统的差异,有限的数据和其他因素,在日语方面往往表现不佳。
为什么ChatGPT很难用日语回复?
迷失东京
ChatGPT难以处理日语的主要原因是,它所训练的数据集的大部分由英语材料组成。而且英语要比日语简单得多。
英语单词是由英语字母表中26个字母的组合组成的。日语使用48个基本字符,外加2136个常用汉字或汉字。这些汉字中的大多数都有多种发音。
另外还有50,000个汉字是日语的一部分,但很少使用。
当日本人使用ChatGPT时,他们的提示被翻译成英语,ChatGPT生成英语输出,然后将其翻译成日语。因此,当日本人读到ChatGPT的回复时,它听起来有点不对劲,这就不足为奇了。
Sakaguchi解释说,在这个翻译过程中,ChatGPT“有时会生成大多数人从未见过的极其罕见的字符,并导致奇怪的未知单词。
ChatGPT偏见与日本文化
由于ChatGPT主要是基于英语数据进行训练,因此在其反应方式中存在隐性的西方文化偏见。文化塑造了我们说话的方式,在英语中被认为是礼貌或可接受的东西在日本文化中可能并不合适。
如果你用ChatGPT写一份工作申请或投资广告,那么输出的声音对日本人来说会很糟糕,因为它会错过很多礼貌的标准表达。
已经有一些较小的日本LLM,但他们离GPT-3.5的表现还有很长的路要走,更不用说GPT-4了。
RIKEN集团、东北大学、富士通和东京工业大学正在努力改变这一状况。他们的项目是使用日本的Fugaku超级计算机来训练LLM,几乎完全是在日语数据上。
在30B的参数下,它仍然比GPT—3.5等模型小得多,但它将是开源的,并且更好地与日本的语言和文化保持一致。
日本在人工智能发展方面落后于美国和中国等国家。如果要实现其人工智能野心,日本将需要克服一系列行业挑战。
根据日本经济产业省的数据,到2030年,日本将有78.9万名软件工程师的赤字。此外,缺乏先进的计算平台意味着其自主开发的人工智能模型将严重依赖政府拥有的超级计算机Fugaku。
今年早些时候,Sam Altman表示,OpenAI计划在日本开设办事处,并告诉日本首相岸田文雄,OpenAI希望“为日本人打造一些伟大的东西,让模型更适合日本语言和日本文化。
日本有超过1.2亿渴望科技的人口,对于人工智能开发人员来说,这是一个吸引人的市场,尽管很复杂。