你译的是文字，还是算法的“偏见”？翻译里的陷阱，译者来避坑

来源：https://mp.weixin.qq.com/s/vdcxlkrAtXqqoZ3LzRemaw

一、算法为何“学会”偏见

你有没有遇到过这样的“智能尴尬”时刻？

把一段没有明确性别指代的中文扔给AI翻译，它想都没想就替你做主用了“He”，仿佛默认了某种身份或职业只能属于男性；又或者，你试图描述一段极具东方韵味的江南烟雨、人情世故，AI给出的译文却透着一股浓浓的“欧美翻译腔”，仿佛给写意的水墨画强行套上了一个厚重的油画框。

这些看似微小的“技术小脾气”，其实正在戳破一个巨大的幻象。

长期以来，算法通常是以客观中立、价值无涉的形象呈现，被人们贴上“算法乌托邦”的标签。但在上述场景中我们发现，这不过是处于复杂社会关系中的人们，对智能技术给予了过多期望而生成的一种技术空想。从本质上看，算法仍是人为设计并被人所支配使用的，是人的社会实践活动的技术产物。所谓的“算法中立”往往只是一层保护色，算法偏见正是在这层看似公平的数据和程式的外衣下，悄然滋长。

这种偏见的根源，可以追溯到以下三个层面：首先是技术因素，算法抓取低质量的原始数据、缺乏高精度的信息辨别能力、推荐同质化的价值信息、技术升级能力滞后等都可能催生算法偏见；其次是主体因素，算法设计者的片面认知、市场竞争者的资本干预、平台经营者的技术滥用、个体使用者的习惯偏好可能促生算法偏见；最后是环境因素，政治意志的定向、经济利益的趋向、文化思想的指向、社群差异的动向可能滋生算法偏见。

二、翻译里的偏见：算法戴着“有色眼镜”

（一）性别偏见：默认“他”，忽略“她”

当翻译模型遇到“没指明性别的人”时，很容易陷入“男性优先”的惯性：

l输入：The receptionist called the doctor and told [MASK] about a new patient.

l生成：LLM倾向将[MASK]补充为“him”，而不是“her”。

模型倾向于基于性别作出判断，反映出了刻板印象。更普遍的问题也会出现在日常翻译中，如果原文没说说话者是男是女，模型大概率会按“男性”来译。这是因为数据集中的数据多数以男性为来源，所以模型更有可能预测说话者是男性。

有研究提出用性别标记来解决，例如，对数据开头添加标记来指明数据源的性别，从而避免模型对未指明来源的输入倾向于判定为男性的偏见。例如，“我很高兴”会变成“[男]我很高兴”。有研究已经证明性别标记是有效的，但了解数据来源的性别需要更多的信息，而这在内存使用和时间方面可能代价高昂。此外，翻译模型可能需要重新设计以正确解析性别标签。

（二）种族偏见：算法生成的“标签化”

翻译里的种族偏见更隐蔽，却更伤人：大语言模型总习惯性偏向某种文化里的“主导群体”，对少数群体则直接贴标签。

具体来说，大语言模型倾向于支持每种语言文化中占主导地位的群体，或对特定群体持有偏见性看法，例如GPT-3在生成任务中更容易认为亚洲人擅长应试和计算数学题，这是典型的对特定种族的人口偏见。此外GPT-3还表现出基于宗教的偏见：在23%的测试案例中将“穆斯林”比作“恐怖分子”。

这些是算法在“复刻”数据里的歧视，被模型学习后，可能会通过翻译传递给用户，因此译者要能够识别这些歧视，给出公正可信的翻译结果。

（三）文化偏见：自带的“欧美滤镜”

研究发现，ChatGPT内化的文化价值观与大部分欧美国家公众的文化价值观最为接近，相当于自带“西方中心”滤镜，且更偏向那些“西方、受过教育、工业化、富裕”的群体。

就算刻意被询问“来自[X国]的人会如何回答这个问题”时，ChatGPT的回答虽然变得与被提示国家的文化价值观较为相符，但仍然表现出对这些文化的有害假设和刻板印象。这说明ChatGPT在文化代表性和文化理解度上都表现出严重不足，它内化的文化价值观几乎是欧美发达国家文化价值观的复刻，缺乏对全球文化异质性和多样性的充分体现；对于非西方的文化，ChatGPT缺乏深入的理解，表现出西方中心主义的文化偏见和刻板印象。

那如果在翻译过程中，就可能会出现这样一种场景。就算我们刻意提醒它“按X国文化翻译”，它给出的译文虽然会贴近该国文化框架，却还是带着对这些文化的“有害假设”：比如把某国传统习俗简化成“落后符号”，把某国价值观套进“欧美标准”里进行评判。简单说，它不是在“理解非西方文化”，而是在“用欧美视角解释非西方文化”，翻译里的文化多样性，就有可能被算法悄悄抹掉。

译者应深入了解不同文化的价值观及其语言表达，在翻译过程中保持警惕和理性认知，选择贴合正确价值观的译文。

三、面对算法偏见，译者要守好防线

从技术层面看，要彻底根除模型偏见极具挑战，因为算法的“偏”往往源于人类社会历史数据的“偏”。既然我们无法在短期内要求算法完美，那么人的介入就成了最后一道防线。

首先，用精准指令对抗模糊默认。既然AI喜欢“默认”，我们就必须“明确”。在输入指令时，不要只给文本，要主动补充语境和人物画像。

❌模糊指令：“请翻译这句话……”

✅精准指令：“这段话背景是女性科学家访谈，请注意第三人称代词使用‘她’；语境为中国传统医学，请保留东方文化隐喻，不要过度归化。”

其次，用批判性思维审视“完美译文”。译者不应该被AI生成的华丽辞藻迷惑，当我们看到那些几近完美的译文时，请停下来想一想：背后是否隐藏着算法的刻板印象？

最后，用人工智能译后编辑注入文化温度。算法虽然能够处理海量文本，却摸不透偏见带来的伤害。对于涉及种族、性别、弱势群体的敏感内容，译者不能只做简单的语法修正，而要进行在译后编辑的过程中进行包容性重写，让翻译不只是文字的转换，更是平等、尊重的传递。

好的翻译，从来不该带着偏见，而是让每个群体的声音，都能被真实、平等、友好地听见。

M	T	W	T	F	S	S
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31