查看原文
其他

专著推荐 | 管新潮、陆晓蕾《基于Python的语料库翻译/数据分析与理论探索》

点击蓝字 关注我们


新书推荐

输入

扫码购买,如需发票,请先在地址栏下方留言栏填写email, 抬头和税号,再支付。谢谢合作


《基于Python的语料库翻译

 / 数据分析与理论探索》


作者:管新潮 陆晓蕾

定价:78.00元

01

内容提要

本书旨在依托Python编程语言就语料库翻译这一方向展开理论深化与技术创新方面的融合式探索,其内容不仅涉及学界的语料库翻译学,也涉及业界的语料库与翻译。全书分为九章内容:语料库翻译概述、多变量协同效应、译文可读性、翻译对等的短语特征、翻译知识库的构建与应用、语言结构识别与译后编辑、翻译质量评估、文本情感对比分析以及双语工具开发与应用。第1章是对语料库翻译的学界研究和业界应用的综合性概述与分析;第2-8章均以翻译理论为原点,探索翻译理论与当下技术实现融合的可能性。第9章呈现了多种双语Python技术解决方案。全书既有理论描述,也述及实践应用,强调了理论与实践并驾齐驱的可行性。本书适合高等院校翻译学等专业的师生以及从事语言服务或翻译实践活动的爱好者阅读使用。

02

前 言

起始于2017年的Python语言与翻译应用写作体验,随着本书的完成应该可以告一段落。从初级版的《语料库与Python应用》到系统版的《Python语言数据分析》,再到专业版的《基于Python的语料库翻译》,三种图书的顺序出版构成了我学习与工作实践的心路历程——所得到的乐趣远多于所付出的辛苦。本书的写作体验使我再一次明白,语料库翻译技术的发展永无止境,但相关技术必须融入语言数据或语料库的翻译概念之中,否则只能视其为邻家领域的技术。


本书的写作初心源于对翻译的喜爱。既然Python 能够融入语言学的各类概念之中,而且已呈现出良好的发展势头,自然也能够融入翻译学和翻译实践之中。于是,本着这一理念开启了本书的写作之旅。可能有人会提出疑问:机器翻译就是编程实现的,你的 Python翻译编程是什么啊?其实,有过机器翻译应用体验的人都会有这样的感受--机器翻译已经步入可用阶段,但其译文质量在很多应用场景下仍有待商榷,尤其是与高水平人工翻译质量相比照。我想说的是,我的Python翻译编程主要集中于机器翻译无法实现的诸多翻译实践与应用场景,同时也聚焦于语料库翻译的研究领域,更确切地说,是语料库翻译理论与翻译实践的 Python编程探索。一个个独立的Python 第三方库已经为各种实际应用场景提供了诸多可能性,其应用价值毋庸置疑。但在语料库翻译领域场景下,其应  用仍须注意相应技术可能存在的各种不确定性:一是每一种第三方库仅仅展现自身的优点,很少述及不足之处;二是特定的技术都有其特定的应用场景,并不一定具有普适性;三是第三方库的组合应用难度更大。


从某种意义上说,本书的写作也是对学界语料库大咖秦洪武老师和许家金老师的一次个人响应。语料库语言学和语料库翻译事业的发展生机勃勃,令人振奋,但可供使用的语料库技术却并非有想象中的那么多选项。仅仅依靠纯技术人员的技术“施舍”无法满足语料库研究和实践应用的需要,再说纯粹的技术若不涉及语料库概念也无其用武之地。其实,有许多知名大企业拥有很多语料库技术,但企业的逐利性使相关技术的公开成为不可能。学界不能因此气馁,这一问题的解决必须依靠语料库学界的自身力量。令人欣喜的是,这一尝试行动已经体现在上海外国语大学胡开宝教授领衔的语言数据团队等身上。如若本书的尝试也能在一定程度上促使上述问题的解决,那就深感欣慰,荣幸之至。


本书的写作所能产生的体验感与前两本书的多有不同。一是本书的写作时间近乎延续一年,这是文献综述和案例编程费时费力所致;二是写作本书所带来的乐趣远超前两本书,这是模式创新给人的体验,尤其是感触到能以编程方式转化之前所积累的翻译研究知识和翻译实践经验;三是Python技术的介入会给语料库翻译的发展带去更多可能性,使翻译研究更具个性化。


鉴于上述感受与体验,备感本书所涉内容有其三个独特而具有新意的特点:


(1)变量设置的多样性。语料库翻译的相关研究通常会以不同的变量加以表征,如标准类符形符比、平均句长、词簇等,并依据变量数值的大小对语言特征进行相应判别。这一变量处理模式迄今有效,但所面临的问题是究竟需要多少变量才能恰如其分地表征相应的语言特征?毫无疑问,以一个变量或少数变量所表征的语言特征只能是局部特征,而非总体特征。这是一个需要多方参与探讨的专业性和逻辑性问题。其实,更多的变量设置也会带来另一个问题,即变量之间的关联性,其协同效果如何。若两个变量的作用彼此相互抵消,那么将两者设置在同一个维度之内可能并非明智之举。因此,有必要采用统计学方法进行变量的有效性检验,以此确定合理的变量个数,使其能够有效发挥表征作用。语料库翻译研究领域是如此,语料库翻译实践领域也同样需要有效的变量设置。以译后编辑为例,如何发现特定语言结构模式下的机翻译文总是会出错这一现象,其明显需要新的变量,如虚词密度等。变量设置的多样性业已呈现,希望本书在此方面的尝试能够激发出现更多可有效表征的变量。


(2)技术应用的组合性。与经典的语料库工具相比,新技术所能提供的技术种类已越来越多,这不仅是技术发展的必然,也是多样性变量设置的需要。将不同技术组合在一起,服务于特定目的,须遵循一定的逻辑。以FastText或Word2Vec模型应用为例,模型本身并不复杂,其已封装,所能调用的代码只有两行—模型加载和语料训练。训练语料之前如何将原始语料转换成模型所需格式却是关键,因为原始语料的格式可能互不相同,其所需清洗方式和清洗程度也彼此有别。是否需要词形还原?采用何种标注器进行词性标注?是转换为句子列表还是段落列表?用于表征变量的模型须加载多少?等等。所有的这一切都以不同模型或第三方库的组合为前提,因此对不同技术优缺点的了解与把握显得至关重要,过程之中的数据传递与迁移模式亦发挥决定作用。技术的有效组合在于厘清理论思路,精简算法,提高效率。


(3)双语文本的对比性。这是本书的一大特点,即以双语平行或双语可比或双语混合语料作为考察对象,实现双语语境下的Python应用。有些模型看似彼此之间并无明显关联性或关联性不强,但经过双语平行语料的测试发现两类模型之间的确存在可比性。这一作用的体现极大地拓展Python第三方库或模型的可应用性,如汉语情感词典与英文情感极性工具之间,spaCy的中文与英文语言模型之间,同一个语言模型应用于不同语种之间,等等。与翻译相关的双语技术工具的开发使翻译技术从“拿来主义”模式转化为极具个性的技术创新模式,使翻译专业的技术学习与应用不再受限于固化模式,使双语文本的彼此对比更具可行性和多样性。


上述三大特点的前后顺序或交叉呈现是构成本书章节设置的前提。各章节虽仅以序号区分,但根据潜在的内容显示亦可将全书划分为三大部分:第一部分即第1章,介绍语料库翻译的前因后果以及学界业界之间的语料库恩怨情仇;第二部分起始于第2章,结束于第8章,涉及具体的双语对比,如第2章的不同变量设置、第3章的译文可读性、第4章的翻译对等概念、第5章的翻译知识库、第6章的语言结构、第7章的翻译质量评估、第8章的文本情感;第三部分由最后一章即第9章构成,聚焦于双语工具的开发与应用,旨在拓展Python与语料库翻译的可融合性。


写作本书的一个重要目的就是设想将自己多年积累的翻译实践经验转化为可实证描述的翻译知识。这一设想已在我的第一本专著《语料库与翻译》中有所体现,现如今结合了Python技术,使我更有可能通过大数据的方式去挖掘翻译实践知识。以此方式所能获取的翻译知识将更有可能助力于中译外的翻译实践,助力于“讲好中国故事,传播好中国声音”的伟大实践。本书的呈现使我的设想在一定程度上得以实现,感谢技术进步所赐予的各种可能性和可行性——愿与技术同行。

03

作者介绍

管新潮,职业译者,长期从事德英汉翻译实践,至今已累计翻译和审校德英汉字数达3000万(包括审校);主要翻译领域涉及海洋工程与船舶制造(英语)、医学(英语)、法律(德语+英语)、机电(德语)等;建有各类相关语料库,如英汉医学平行语料、英汉海洋工程平行语料库、英汉法律平行语料库、德汉合同文本平行语料库、马克思《资本论》德汉平行语料库(百年)、德语法院判决书语料库、德英汉知识产权法互平行语料库等。训练有多种语言模型,可用于语言数据科学研究和翻译实践。曾经或正在为国际知名企业提供语言服务解决方案,如德国劳氏船级社、挪威船级社、艾斯维尔出版社、施普林格出版社、华为技术公司、毕马威咨询公司等。


现任上海交通大学外国语学院副教授,MTI导师。主持国家级项目3个,发表论文20多篇,出版专著5部、译著10部,拥有专利2项、软件著作权2项。研究方向:计算翻译学、翻译技术与管理、法律翻译。


陆晓蕾,厦门大学外文学院助理教授,研究兴趣为语言智能、口笔译测试与自动评估。主持教育部社科项目2项,出版专著1本,在Computer Assisted Language Learning、Interpreting、Natural Language Engineering等期刊上发表论文10余篇。代表作有“Automatic assessment of spoken-language interpreting based on machine translation evaluation metrics: A multi-scenario exploratory study”、《Python3:语料库技术与应用》等。


相关推荐

扫码购买,如需发票,请先在地址栏下方留言栏填写email, 抬头和税号,再支付。谢谢合作

扫码购买,如需发票,请先在地址栏下方留言栏填写email, 抬头和税号,再支付。谢谢合作

扫码购买,如需发票,请先在地址栏下方留言栏填写email, 抬头和税号,再支付。谢谢合作

04

目 录

(左右滑动翻阅)



05

精彩试读


左右滑动查看更多


本书属于“语言数字人文丛书”,总主编:雷蕾 邓耀臣 管新潮


互动赠书活动参与规则


  1.  先将本文以“ 欢迎关注语言学通讯”分享到朋友圈。朋友圈获得点赞30个以后,截图发给本公众号后台。


 2.  在本文下方留言说明你为什么需要这本赠书,我们将完成第一步,并且走心的留言推送到前台。


  3. 截止到2022年9月30日上午9:00之前,我们将从本文推送留言的读者中选取1名获赞最多的幸运读者,包邮赠送本书。


  4. 没有获奖的读者们也请不要遗憾~可以去官方微书店购买,保证图书尽快到您手中~

转发朋友圈,为自己的优质评论集赞👍👍


时间有限,请尽快参与哦~

学术研修:9月17-25日

学术研修 | 9月17-25日. 翻译与搜索技术工作坊

语料库国内著作推荐 

专著推荐 | Corpus-Assisted Ecolinguistics

专著推荐 | 雷蕾、刘迪麟Conducting Sentiment Analysis

专著推荐 | Corpus-based Approaches to Register Variation

专著推荐 | 《语料库多维度分析:方法与问题》

专著推荐 | Learner Corpus Research

专著推荐 | Corpus Approaches to the Language of Sports

专著推荐 | Bloomsbury新书《语料库翻译学疆域拓展》

专著推荐 | 语料库语言学最新国际前沿专著
专著推荐 | 语料库(统计)语言学最新国际前沿专著

专著推荐 | 杨炳钧、李文:《基于语料库的语法、媒体和健康话语研究》
专著推荐 | 语料库翻译学最新国际前沿专著(5种)

专著推荐 | 语料库+外语教学该怎么玩?
专著推荐 | 基于语料库的中国理工科大学生英语写作能力研究

专著推荐 | 张毓:《学术文本概指名词的特征性型式与局部功能》

专著推荐 | 黄瑞红. 英汉程度副词与动词的搭配研究

专著推荐 | 语料库+认知(隐喻)应该怎么玩?

专著推荐 | 语料库+语用学(话语分析)应该怎么玩?

专著推荐 | 甄凤超《语料库驱动的短语配价型式研究》

专著推荐 | 甄凤超《基于语料库的中国学习者英语特征研究及应用》

专著推荐 | 陆军《二语词语的共选型式研究与教学设计》

专著推荐 | 《语料库视域下的话语标记研究》

专著推荐 | 《析取关系的语言表达——一项基于双向平行语料库的英汉对比研究》

专著推荐 | 《型式与意义:语料库驱动的英汉高频名词对比研究》

专著推荐 | 庞双子:基于新型历时复合语料库的翻译汉语特征研究

专著推荐 | 王克非 编:《双语语料库研制与应用新论》
专著推荐 | 郭鸿杰、宋丹《基于语料库的英汉对比与翻译》

专著推荐| 管新潮《语料库与Python应用》
专著推荐 | 管新潮《Python语言数据分析》

专著推荐 | 应用语言学研习丛书(13种)

专著推荐 |  商务英语教师学养丛书(15册)

专著推荐 | “什么是语言学” 普及系列(18种)

教材推荐 | 戴光荣、王华树. 翻译技术实践教程


学术研修、讲座

学术讲座 | SSCI论文写作与发表经验介绍

学术研修 | 9月17-25日. 翻译与搜索技术工作坊

学术讲座 | 语言学期刊主编谈论文发表技巧—以文献计量法为例

学术讲座 | 文学类SSCI A&HCI论文发表进阶系列课

学术讲座 | CSSCI期刊编审:如何使学术写作更有价值
学术讲座 | 青年学者如何突破论文发表困局?

学术讲座 | 如何用定量研究讲好社会科学故事?

学术讲座 | 语言类学术期刊论文写作与发表

学术讲座 | 综述≠综抄,语言学高水平文献综述写作

学术讲座 | 如何实现语言学研究的学术创新与跨学科研究

学术讲座 | 研究如何创新?以翻译学跨学科研究为例

学术讲座 | 论文撰写与录用:编辑视角的案例分析

学术讲座 | 杨润勇. 各级课题申报策略与方法

学术讲座 | 人文研究的阅读与写作

学术讲座 | 核心期刊编辑如何看待学术写作


不当你的世界  只作你的肩膀

语言学通讯

助力您的语言学习、教学与科研

请留下你指尖的温度

让太阳拥抱你

记得这是一个有温度的公众号

在看不好意思,那就点个赞吧

修改于
继续滑动看下一个
语言学通讯
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存