郎平,是一个传奇的人物。提到这个无人不知不晓得的名字,人们第一个想到的是“女排精神”。郎平在作为一名排球运动员时所取得的成绩与荣耀尽显运动员生涯的辉煌,被称为“世界第一主攻手”。而当她执掌中国女排时,力挽狂澜,将一度陷入低迷的中国女排带上世界最高领奖台。她被称为是成为“世界最佳教练”。

这个动图显示了将句子「Je suis étudiant」翻译成英文时,每个隐藏状态被赋予权重的过程。颜色越深,单词的权重就越大。又或者,当你把句子「L’accord sur la zone économique européenne a été signé en aot 1992.」从法文翻译成英文时,每个输入被赋予注意力的程度如下图所示:

刚结束一轮对市内乡村中小学校的检查调研,湖南省浏阳市教育局信息中心主任缪贤根赫然发现,情况与两年前完全不一样了。

基本上,Transformer 就是这样工作的。但还有一些小的细节可以让它们工作地更好。例如,Transformer 使用了多头注意力机制的概念,而不是仅仅在一个维度上让单词彼此关注。多头注意力机制背后的想法是,每当你翻译一个单词时,你可能会基于你所问的问题的类型对每个单词赋予不同的注意力。下图对这种想法的意义进行了说明。例如,当你翻译句子「I kicked the ball」(我踢了球)时,你可能会问「是谁踢了?」而根据答案的不同 ,将该单词翻译成另一种语言的结果可能会有所变化。或者你也可能会问其它的问题,例如「做了什么?」等等。

为了提高教师执教的积极性,该校与邳州市教育局电教馆联系沟通,争取到为讲课教师开具县级公开课证明、邀请专家进校辅导、电教馆按照课时给予老师奖励等政策。同时,学校层面也相继出台了一系列激励措施,比如绩效加分、计入教师成长档案、加计教师科研成绩等。

这中间,发生了什么?

教师观课后向学生授课,学生学习兴趣提高激励老师

“在祁连县推进教育信息化,一开始,教师的顾虑还真不少。”祁连县电教中心主任沈卫基说。

为了解决这些问题,研究人员创造了一种将注意力分配到特定单词上的技术。在翻译一个句子时,我们会特别注意正在翻译的单词。当转写录音时,我们会仔细聆听正在努力记下来的片段。如果让我描述一下我所在的房间,我会一边说一边环顾我所描述的物体的四周。神经网络可以使用注意力机制实现相同的行为,将注意力集中在给出了信息的部分上。例如,一个循环神经网络(RNN)可以处理另一个 RNN 的输出。在每一个时间步上,它都会关注另一个 RNN 的输出的不同位置。为了解决这些问题,神经网络使用了一种名为「注意力机制」的技术。对 RNN 来说,每个单词都有一个对应的隐藏状态,并且被一直传递给解码阶段,而不只是将整个句子编码在一个隐藏状态中。然后,在 RNN 的每一步中都会利用这些隐藏状态进行解码。下面的动图显示了完整的工作流程:

第三步和第四步是将第二步得到的得分除以 8(文中使用的键向量的维度(64)的平方根。这会让我们得到更稳定的梯度。这里也可以除以其它的值,但本文给出的是默认情况),然后将做除法的结果传递给 softmax 运算。Softmax 会将这些分数进行归一化,使它们都为正值,而且加起来等于 1。

编码器内部结构示意图这里将开始介绍 Transformer 的一个关键属性:每个位置的单词都会沿着各自的路径流经编码器。在自注意力层中,这些路径之间有相互依赖关系。然而在前馈层中则没有这样的依赖关系,因此可以在流经前馈层时并行处理各种路径。接下来,我们使用一个更短的句子作为例子,看看每个子层中发生了什么。

自身教学水平的提升是最大的动力。名校教师的教学方法和理念开拓了祁连县第二小学教师的视野,尤其在帮助乡村教师普通话标准发音、课文朗读、英语学习等方面效果显著。

2017年9月,青海省教育厅启动了全省民族地区全日制远程教学试点工作,探索教育信息化建设。第一批试点学校总共有9所,祁连县第二小学是其中之一。

青海省教育厅电子信息化教育馆副馆长赵敏说:“不久前的调研结果显示,祁连县小、初、高所有网络远程教学班级成绩进步明显,去外地就读的高中优秀生源已出现回流。”

轻松做到并行化处理(在每一层中)利用局部的依赖位置之间的距离是对数函数

郎平称队员朱婷是“亲闺女”。朱婷来到国家队后得到了郎平的赏识。从小家境清寒的她得到了郎平在各方面的关照,朱婷在采访中曾高度评价郎平教练,称教练细心地指导与生活上的关心,带给了她母亲般的关怀。她们的师徒之情也称为排坛中的一段佳话。

学生的改变最能触动这些原本抗拒的教师。“数学课也能讲得很生动,过去很难理解的概念,通过远程课程教学资料中的图解,学生一目了然。”魏福星说。一段时间后,学生学习兴趣和语言表达能力明显提高了,思考问题方式也变得多元。这让老师们受到了鼓舞,开始放下面子,一起学、一起议。

这个 softmax 处理后的得分决定了每个单词在这个位置上被「表达」的程度。显然,该位置上本身存在的单词会得到最高的 softmax 值,但是有时关注与当前编码单词相关的另一个单词是很有用的。第五步是将每个值向量与 softmax 得分相乘(为对其求和做准备)。这里的直观理解是,将我们想要关注的单词的值维持在较高水平,并且忽略那些不相关的单词(例如,通过将它们的值与 0.001 这样极小的数字相乘)。第六步是对加权值后的值向量求和。该步骤将生成当前编码位置上(第一个单词)的自注意力层的输出。

绿色显示的步骤被称为编码阶段,而紫色显示的步骤则是解码阶段。这样做的理由是,在一个句子中的每个单词都可能有相关的信息。因此,为了让解码更加精确,模型需要使用注意力机制考虑输入的每一个单词。为了在序列转换任务中将注意力机制引入到 RNN 中,我们将编码和解码分为两个主要步骤。一个步骤用绿色表示,另一个步骤用紫色表示。绿色的步骤被称为编码阶段,紫色的步骤被称为解码阶段。

学生基础不同,教师负担增加,怎么办?

惠祥宁坦言,专递课堂是对于现代通信技术依赖性很强的教学形式,通信畅通、信号良好是保证。但最大的挑战远非技术问题,而在于这种新型的教学形式对原有教学模式的冲击。“同样的教学环节,几个班级学生一起上,学生们基础不同,思维的深度、广度不同,对于问题的思考有着较大差异,师生之间的陌生感也会影响现场教学效果。”

制度支持也不能少。沈卫基介绍,祁连县县长带领各局局长听网络远程教学课程,县教育局党委书记、局长一年累计听课达64节。“祁连县从顶层设计层面加大支持,对信息化教学的教师工资待遇、职称评定等方面给予一定的倾斜。”祁连县教育局副局长杨德文说。

这就是自注意力机制计算过程得到的结果。我们可以将最终得到的向量传递给前馈神经网络。然而,在实际的实现中,为了加快处理速度,这种计算是以矩阵的形式进行的。

信息化手段用于教学,离不开现代通信技术、互联网技术和各种硬件设备的发展,更离不开关键的使用者——一线教师。信息化的推进,对不同教师而言,会产生哪些问题?如何解决?

加强教育管理部门培训,提升一线师生信息化素养

词嵌入过程仅仅发生在最底部的编码器中。所有的编码器所共有的抽象输入形式是,他们会接受一个 512 维的向量的列表。在底部的编码器中,这种输入是词嵌入,而在其他的编码器中,输入则是紧接着的下一层编码器的输出。在对我们输入序列中的单词进行嵌入后,每个向量都会流经编码器的两层。

江苏省运河高等师范学校附属小学的老师也许没有想过,“镜头切换”的技巧有一天会成为自己需要掌握的工作技能。

“一方面担心学生学习能力不足,与名校学生水平差距太大,远程课堂容量大、难度高、发散性强,担心学生听不懂,无法吸收。另一方面,我们也担心自己不会用,被学生笑话。而且,我们学校的教师需要用2—3节课的时间才能完成成都市实验小学教师一节课的教学内容,同步学习使教师备课量倍增。接受教育信息化,意味着否定了传统的教学模式,第一反应是抗拒的。”魏福星说。

曾经有过担心的这位老师介绍,自己最初执教专递课堂时,学校安排了资深老师帮助备课,让她逐渐建立了自信;通过绩效加分,不仅收入增加了,还能算作科研成绩。

编码器的输入首先会流经一个「自注意力」层。它会帮编码器在对特定的单词进行编码时关注输入句子中其它的单词。解码器也有这两层,但解码器中的自注意力层和前馈神经网络层之间还有一个注意力层,该层会帮助解码器关注输入的句子中相关的部分。

如今,距离浏阳市城区几十公里的大围山脚下,小溪村教学点年近50岁的语文教师万瑞发,也适应了信息化的教学方式。从“人人通”云平台上下载课件资源辅助备课,或带到课堂上进行展示,已成日常。

机器到位时间不短,教师使用意愿不高,咋推动?

运师附小信息中心主任惠祥宁告诉记者,录课教师在录制中要切换镜头,“切镜头的时机”看起来是一件小事,却关系到教师与“第二课堂”学生的配合情况。一些场景投影在屏幕上,如果角度或位置不佳,不利于教师与农村课堂进行互动。所以在录课的过程中,教师可以采取手动、半自动、自动相互协调控制录播,以便利用合适的镜头切换来增加互动效果。

连续30年,郎平一直获得大众的喜爱与关注。郎平在排球方面的技术和能力不言而喻,但郎平的高情商也是她在教练路上的助力“法宝”。

首先,让我们来看看如何使用向量计算自注意力,然后进一步看看这是如何使用矩阵来实现的。

教育信息化,需要的不仅仅是软硬件设施,一线教师在其中发挥着至关重要的作用。拥有优质教育资源的学校,向偏远地区输出教学内容,是否增加教师负担?教育基础相对薄弱的地区,接受信息化手段和先进教育理念,当地教师有哪些顾虑?教育部门推动信息化工作,怎样考虑教师诉求?请看记者调查。

如此一来,教师负担不也增加了吗?学校一位年轻老师就曾这样担心:“在本身的教学工作之外,每次上课都要增加两个小时的备课时间,还要熟悉不同的班级。有时候会缺乏信心,怕教不好。”

将句子「L’accord sur la zone économique européenne a été signé en aot 1992.」翻译成英文。但是使用了注意力机制的 RNN 仍然不能解决一些我们讨论过的问题。例如,并行地处理输入(单词)是不可能的,对于大型的文本语料库来说,这增加了翻译文本要花费的时间。

卷积神经网络对解决这些问题有所帮助。通过卷积神经网络,我们可以:

几年前,浏阳为全市中小学校教室配置了计算机、电子白板等信息化教学设备。然而,机器到位的时间不短,教师使用的意愿却不高。“我用传统手段,一样教出高质量的学生。”有一次,缪贤根到乡镇学校推广信息化教学,有教师当场反驳。

祁连县第二小学是全日制寄宿制小学,学生大多是农牧民子女,而且很大一部分是留守儿童。学校软硬件基础薄弱,师资力量和水平也不足。

本文为机器之心编译,转载请联系本公众号获得授权。

序列转换。绿色方框代表输入,蓝色矩形代表模型,紫色方框代表输出。对于执行序列转换任务的模型来说,它们需要某种记忆能力。例如,让我们将下面的句子翻译成另一种语言:

学校建立了与对方学校任课教师集体备课、共同研究施教方案等机制。该校音乐教师李孟阳介绍,在每次讲课前,都要与对方学校老师交流相关的课前准备工作。“记得有一次沟通音乐基本知识教学情况时,一天通了10个电话,就为了尽可能让两个课堂保持一致。”

为了解决并行计算的问题,Transformer 试着同时使用卷积神经网络和注意力模型。注意力模型提升了模型将一个序列转换为另一个序列的速度。接下来,让我们看看 Transformer 是如何工作的吧。Transformer 是一类使用注意力机制加速运算的模型。更确切地说,Transformer 使用的是「自注意力机制」。

一些最流行的用于序列转换任务的神经网络架构(如 Wavenet 和 Bytenet)都是基于卷积神经网络的。

郎平她作为一名教练,清楚地知道如何协调队员,调整她们的心态,如果临时调整,这与她的高情商息息相关。郎平心中的女排精神是“知道有时不会赢,也要拼尽全力。”她不惧强敌,郎平用她的独特魅力诠释着女排精神的内涵,无论是胜利还是失败,那种珍贵的精神依然在。同时她的女排精神感染了一代又一代的运动员,而中国女排的精神也在代代相传,成为一股精神力量,成为一种传奇。

在高强度的训练中,郎平严肃认真的态度让人敬畏。她既能严肃认真,也能和队员打成一片。而在生活中,郎平给予队员们无微不至的关怀。她清楚得记得队员们的生日,在队员受伤时,郎平更是关切问候,就算在训练之外的假期,她还是会跟女排健儿们保持联系。在郎平的训练队伍里没有军规戒律,而是充满着人性化。郎平用心地对待,也得到了队员们发自己内心地认同。

水平差距太大,学生无法吸收,咋解决?

改变教师的观念,并不难。正面引导、课程演示,让教师们认识到信息化手段有助于教育效率的提升。

然而,要充分发挥教育信息化的优势,还需实现信息化手段从“用起来”到“用得好”转变。这就需要依靠培训,使教育管理部门和一线师生的信息化素养同步提升。 湖南多地实行四级培训制度:通过“国培计划”等,培训中小学校长及教育主管部门人员;通过湖南省中小学教师信息技术应用能力提升工程,培训信息技术骨干教师和专任骨干教师;通过组织电化教育馆及高校等单位的专家学者赴基层,培训教育信息化基础教师;培育出来的“种子教师”,为所在学校的科任教师普及教育信息化知识。

“经过教育培训,教师找资源,用资源,甚至做资源,都变得更容易。”长沙市岳麓区教育局信息中心负责人林涌波说着,就在一台普通的教学一体机上,演示把一个正方形变成立方体,并完成上色、三维旋转展示、导出自制课件等操作。“像这样的功能,机器内置的小程序原本都有,但在培训前,能完成相关操作的教师可能不足10%!”

注:这一节摘选自 Jay Allamar 的博文(http://jalammar.github.io/illustrated-transformer/)。首先让我们来看看各种向量/张量,以及它们如何在这些组件之间流动,将一个训练过的模型的输入转化成输出。与一般的自然语言处理应用程序一样,我们首先将使用一个嵌入算法将每个输入的单词转换为向量形式。

词嵌入示意图每个单词都被嵌入到了一个 512 维的向量中。在本文中,我们将这些向量表示为上图中这样的简单的方框。

Wavenet 模型是一种卷积神经网络(CNN)。

Transformer 中另一个重要的步骤就是在对每个单词进行编码的时候加入了位置编码。对每个单词的编码之间都是相互关联的,因为每个单词的位置与其翻译结果相关。

绿色的步骤负责根据从输入中创建隐藏状态。我们没有像在使用注意力之前那样仅仅向解码器传递一个隐藏状态,而是将句子中每个单词生成的隐藏状态都传递给解码阶段。每一个隐藏状态都会在解码阶段被利用,从而找到神经网络应该施加注意力的地方。例如,当把句子「Je suis étudiant」翻译成英文时,就需要解码步骤在翻译时关注不同的单词。

每个编码器互相之间都是类似的。所有的编码器都有相同的架构。解码器也都具有相同的特性,即解码器互相之间也很类似。每个编码器由一个「自注意力层」和一个「前馈神经网络」组成。

网络远程教学,教师需要先学习,这称之为“观课”。原则上每个老师最少观课三次之后,再给学生授课。教师大量的时间被观课占据,批改作业的时间没有了,只能下班带回家,工作量增加了不少。

不了解听课学生的情况,怎么备课呢?

卷积神经网络能够并行工作的原因是,输入的每个单词都可以被同时处理,而且并不一定需要依赖于之前有待翻译的单词。不仅如此,CNN 的时间复杂度是 log(N)阶的,这是从输出到输入生成的树的高度的大小(如上面的动图所示)。这要比 RNN 的输出到输入之间 N 阶的距离要短得多。但问题是,卷积神经网络并不一定能够帮助我们解决翻译句子时的依赖关系的问题。这也就是「Transformer」模型被创造出来的原因,它是卷积神经网络和注意力机制的结合。

教了17年小学数学的青海祁连县第二小学教师魏福星,终于放下“面子”,接受了网络远程教学。从抗拒到接受,他经历了怎样的过程?

集体备课、共同研究施教方案,绩效加分、计入教师科研成绩

将 x1 与权值矩阵 WQ 相乘得到与该单词相关的「查询向量」 q1。我们最终为输入句子中的每个单词创建了一个「查询」、「键」和「值」的投影。什么是「查询向量」、「键向量」和「值向量」?这三个向量是对注意力进行计算和思考时非常有用的抽象概念。阅读下面关于注意力计算方法的有关内容,你就会对这些向量的作用有一个很好的认识。计算自注意力的第二步是计算出(某个单词的查询向量与其它单词的键向量相乘)的得分。假设我们正在计算本例中第一个单词「Thinking」的自注意力。我们需要计算出输入句子中每一个单词对于「Thinking」的打分。在我们对某个特定位置上的单词进行编码时,该得分决定了我们应该对输入句子中其它的部分施以多少关注。该得分是通过将查询向量分别和我们正在打分的单词的键向量做点乘得到的。所以,假设我们正在计算位置 #1 的自注意力,第一个得分就是 q1 和 k1 的点积。第二个分数就是 q1 和 k2 的点积。

邳州市运师附小是江苏省内率先开展“专递课堂”项目的学校。专递课堂是指用网上同步上课的方式,与边远地区农村学校共享优质教育资源。专递课堂设有专用教室,使用5路全自动跟踪拍摄录播系统,对精品课程进行拍摄。

找出一个句子中各单词之间的关系,为其赋予正确的注意力。计算自注意力的第一步是根据每个编码器的输入向量(在本例中,是每个单词的嵌入)创建三个向量。因此,对于每个单词,我们会创建一个查询向量、一个键向量和一个值向量。这些向量是通过将嵌入乘以我们在训练过程中训练出的三个矩阵得到的。请注意,这些新向量的维度比嵌入向量小。其维数为 64,而嵌入和编码器的输入/输出向量的维度为 512。这三个向量不必更短小,这种架构选择可以使多头注意力的计算过程(大部分)保持不变。

曾经作为的一名排球运动员的郎平,也深谙队员们在训练、比赛中的心理变化,明白如何调动队员。她也总能在比赛遇到不好的局势时保持镇定,控制自己的情绪,观察局势,找到解决的方案,成为女排健儿们在比赛中最坚强的后盾。在赛场上,只要看见郎平在场下的眼神,队员们便能重新找到自信和力量。

在本例中,第二句中的「band」一词指的是第一句中介绍的「The Transformers」乐队。当你在第二句中读到这支乐队时,你知道它指的是「The Transformers」乐队。这对翻译任务可能非常重要。此外,还有很多这样的例子,某句中的某个单词指的是前面句子中的单词。