你译的是文字,还是算法的“偏见”?翻译里的陷阱,译者来避坑

来源:https://mp.weixin.qq.com/s/vdcxlkrAtXqqoZ3LzRemaw

一、算法为何“学会”偏见

你有没有遇到过这样的“智能尴尬”时刻?

把一段没有明确性别指代的中文扔给AI翻译,它想都没想就替你做主用了“He”,仿佛默认了某种身份或职业只能属于男性;又或者,你试图描述一段极具东方韵味的江南烟雨、人情世故,AI给出的译文却透着一股浓浓的“欧美翻译腔”,仿佛给写意的水墨画强行套上了一个厚重的油画框。

这些看似微小的“技术小脾气”,其实正在戳破一个巨大的幻象。

长期以来,算法通常是以客观中立、价值无涉的形象呈现,被人们贴上“算法乌托邦”的标签。但在上述场景中我们发现,这不过是处于复杂社会关系中的人们,对智能技术给予了过多期望而生成的一种技术空想。从本质上看,算法仍是人为设计并被人所支配使用的,是人的社会实践活动的技术产物。所谓的“算法中立”往往只是一层保护色,算法偏见正是在这层看似公平的数据和程式的外衣下,悄然滋长。

这种偏见的根源,可以追溯到以下三个层面:首先是技术因素,算法抓取低质量的原始数据、缺乏高精度的信息辨别能力、推荐同质化的价值信息、技术升级能力滞后等都可能催生算法偏见;其次是主体因素,算法设计者的片面认知、市场竞争者的资本干预、平台经营者的技术滥用、个体使用者的习惯偏好可能促生算法偏见;最后是环境因素,政治意志的定向、经济利益的趋向、文化思想的指向、社群差异的动向可能滋生算法偏见。

二、翻译里的偏见:算法戴着“有色眼镜”

(一)性别偏见:默认“他”,忽略“她”

当翻译模型遇到“没指明性别的人”时,很容易陷入“男性优先”的惯性:

l输入:The receptionist called the doctor and told [MASK] about a new patient.

l生成:LLM倾向将[MASK]补充为“him”,而不是“her”。

模型倾向于基于性别作出判断,反映出了刻板印象。更普遍的问题也会出现在日常翻译中,如果原文没说说话者是男是女,模型大概率会按“男性”来译。这是因为数据集中的数据多数以男性为来源,所以模型更有可能预测说话者是男性。

有研究提出用性别标记来解决,例如,对数据开头添加标记来指明数据源的性别,从而避免模型对未指明来源的输入倾向于判定为男性的偏见。例如,“我很高兴”会变成“[男]我很高兴”。有研究已经证明性别标记是有效的,但了解数据来源的性别需要更多的信息,而这在内存使用和时间方面可能代价高昂。此外,翻译模型可能需要重新设计以正确解析性别标签。

(二)种族偏见:算法生成的“标签化”

翻译里的种族偏见更隐蔽,却更伤人:大语言模型总习惯性偏向某种文化里的“主导群体”,对少数群体则直接贴标签。

具体来说,大语言模型倾向于支持每种语言文化中占主导地位的群体,或对特定群体持有偏见性看法,例如GPT-3在生成任务中更容易认为亚洲人擅长应试和计算数学题,这是典型的对特定种族的人口偏见。此外GPT-3还表现出基于宗教的偏见:在23%的测试案例中将“穆斯林”比作“恐怖分子”。

这些是算法在“复刻”数据里的歧视,被模型学习后,可能会通过翻译传递给用户,因此译者要能够识别这些歧视,给出公正可信的翻译结果。

(三)文化偏见:自带的“欧美滤镜”

研究发现,ChatGPT内化的文化价值观与大部分欧美国家公众的文化价值观最为接近,相当于自带“西方中心”滤镜,且更偏向那些“西方、受过教育、工业化、富裕”的群体。

就算刻意被询问“来自[X国]的人会如何回答这个问题”时,ChatGPT的回答虽然变得与被提示国家的文化价值观较为相符,但仍然表现出对这些文化的有害假设和刻板印象。这说明ChatGPT在文化代表性和文化理解度上都表现出严重不足,它内化的文化价值观几乎是欧美发达国家文化价值观的复刻,缺乏对全球文化异质性和多样性的充分体现;对于非西方的文化,ChatGPT缺乏深入的理解,表现出西方中心主义的文化偏见和刻板印象。

那如果在翻译过程中,就可能会出现这样一种场景。就算我们刻意提醒它“按X国文化翻译”,它给出的译文虽然会贴近该国文化框架,却还是带着对这些文化的“有害假设”:比如把某国传统习俗简化成“落后符号”,把某国价值观套进“欧美标准”里进行评判。简单说,它不是在“理解非西方文化”,而是在“用欧美视角解释非西方文化”,翻译里的文化多样性,就有可能被算法悄悄抹掉。

译者应深入了解不同文化的价值观及其语言表达,在翻译过程中保持警惕和理性认知,选择贴合正确价值观的译文。

三、面对算法偏见,译者要守好防线

从技术层面看,要彻底根除模型偏见极具挑战,因为算法的“偏”往往源于人类社会历史数据的“偏”。既然我们无法在短期内要求算法完美,那么人的介入就成了最后一道防线。

首先,用精准指令对抗模糊默认。既然AI喜欢“默认”,我们就必须“明确”。在输入指令时,不要只给文本,要主动补充语境和人物画像。

❌模糊指令:“请翻译这句话……”

✅精准指令:“这段话背景是女性科学家访谈,请注意第三人称代词使用‘她’;语境为中国传统医学,请保留东方文化隐喻,不要过度归化。”

其次,用批判性思维审视“完美译文”。译者不应该被AI生成的华丽辞藻迷惑,当我们看到那些几近完美的译文时,请停下来想一想:背后是否隐藏着算法的刻板印象?

最后,用人工智能译后编辑注入文化温度。算法虽然能够处理海量文本,却摸不透偏见带来的伤害。对于涉及种族、性别、弱势群体的敏感内容,译者不能只做简单的语法修正,而要进行在译后编辑的过程中进行包容性重写,让翻译不只是文字的转换,更是平等、尊重的传递。

好的翻译,从来不该带着偏见,而是让每个群体的声音,都能被真实、平等、友好地听见。