数码化的情感和能共情的AI-环球时讯-小童说事

情感可以说是人类生活最重要构成，喜怒哀惧等各种情绪是个体与外在世界发生联系最直接的表达。随着社交媒体，大数据，人工智能，可穿戴设备等数码科技越来越深入的介入到现代个体的日常生活中，我们的情感的表达和发生似乎与科技的羁绊日益加深: 越来越多人习惯用表情包来表达自己的情绪;网络舆情中内涵的情感信息成为大数据行业重点关注的对象，消费品牌和短视频平台借助各种新媒体等手段在情感维度刺激使用者和消费者的欲望，游戏开发者开始尝试用VR产品和可穿戴设备让玩家获得全新的游戏体验。简言之，在数码时代，数码科技已经深深介入了现代社会人类情感的体验和表达之中。本期要分享的这本《有情的AI: 共情媒体的崛起》（Emotional AI: The Rise of Empathic Media）就是英国数码科技学者Andrew McStay对这一现象的总结，以及对这种趋势背后动力的全面分析。

Andrew McStay是英国Bangor University的教授，他的职位名字也颇有意思，叫professor of digital life, 数码生活教授，一听就非常跨学科。McStay长期关注数码科技对社会生活的影响，并在欧陆担任多家NGO以及科技伦理委员会的委员或者顾问。在本书的写作过程中，McStay访谈了世界各地的科技、媒体、营销从业者去了解那些和情感体验相关的科技产品是如何开发和营销的。同时他还设计问卷，在英国通过民意调查的方式来了解普通市民对与科技以及情感关联的态度。他认为：在当今时代，数码技术的普及让整个人类社会正在生产大量关于情感、目的和态度的信息。个体愈加习惯借助数字符号和数码平台来进行非语言沟通；而商业广告，数据分析，政治选举等产业因此能够提供大量的产品和服务去把人类情感作为分析和营销的对象。

虽然科技对情感社会的介入是个明显的趋势，但是在不同行业不同领域，科技的介入形式是不一样的。作为概念化的一部分，作者用Emotional AI来统称所有依靠人工智能和机器学习等技术来对情感生活进行测量分析的科技产品。这一概念之下包含了多种科技应用，比如针对文本信息的情感分析技术（sentiment analysis），针对表情的面部分析技术，针对谈话语速，声调，频率的声音分析技术，眼球追踪技术，对皮肤反应和肌肉活动乃至大脑活动进行追踪分析的可穿戴设备，VR及AR技术等等。所有的技术和设备都在运用科技手段对人类情感的表达过程进行测量，分析乃至干预，其应用的场景涵盖了教育，购物、医疗、旅游、游戏等人类生活的不同领域。

在本书开头，作者言简意赅地抛出了自己的核心论断：我们日益与能够与人类情感产生共情的科技生活在一起，这些科技对人类情感生活的介入是前所未有的。说科技能够共情，并不是指科技像很多电影中描述的机器人那样，有了自主意识和独立思考，而是说，在人工智能和机器学习的加持下，科技产品获得了人工情感智能（artificial emotional intelligence）。这种智能指的是科技产品可以通过对人类生活的情感信息的捕捉，分类，和探测来对人类进行一定的回应。日常情感表达离不开依托语言，文字，图像进行的交流。情绪生成在人体上则会通过面部表情，肢体动作，心率，体温以及声音等生物性特征的变化来呈现。而数码科技可以通过对上述信息的采集分析来观察并推断人类的情感状态，根据人类不同的情感状态依托产品中的人际互动设计进行回应。这样一来，机器看上去拥有了与人类生活进行共情（empathy）的能力。

共情本身是一个极富社会学和哲学内涵的概念，在本书中，作者认为机器的共情需要从两个特点来理解。第一个特点强调共情是一个社会事实：共情离不开人际互动和社区互动。在这个意义上，我们可以看到人类正在习惯与和能够对我们情感世界进行反应的科技产物共同生活。我们不仅依靠像数码媒体这样的科技产物进行人际互动，还直接与类似siri或只能助手这样的科技产品进行人机互动，我们情感体验生成的社会性本身就是被科技高度介入的。用作者的话说，我们不是简单的使用这些产品，而是与这些产品共同生活。第二个共情的特征在于其具有的美学和抒情意义。科技不仅仅是在人类互动领域影响情感，更在人们的美学和抒情体验中介入情绪。举例来说，我们欣赏音乐，小说，绘画或者看电影玩游戏的过程中，并不必然与他人进行社会互动，但是我们同样会有各种情感体验的产生。这些体验植根于人类对审美对象的感触，体验和想象之中，而虚拟现实增强现实等现代科技技术，创造出高科技的审美产品（游戏、电影、全息影像）让我们在非社交情景中同样可以产生不一样的情感体验。

机器的共情能力不是凭空产生的，他是人类科技发展的产物。机器并不知情为何物，但是机器按照算法可以对人类行为中的情感信息进行提取和分析。科技发展到这一步，离不开人类对自身情感知识的不断积累。但作者提醒我们的是，无论是在生物学、医学，脑神经学，还是心理学、社会学的学术研究中，本来对于情感的知识是争议大于定论的，不同的学派对情感的理解各有不同。但在科技圈和商业圈的影响下，某种对情感的理解成为主流并日益发展成一个把情感看作可分析乃至可操控的存在。

作者把这一问题称为情感的工业化，考虑到情感对于人类决策的重要性，这一现象的本质上反应的是对情感的测量和影响服务于特定的工业目的。在神经性科学看来，人类在理性判断之前往往容易受情感唤起的影响。而工业界从业者认为，如果能够影响人们的情感，制造体验希望对方体验的东西，就有机会获得人们的注意力，影响人们的判断，并争取让人们作出有利自己的选择。这意味情感本身是具有经济价值的，而在一个后工业社会，大批经济行为学家开始扑到这个主题上，去在营销、广告等主题上下功夫，争取通过对人们情感的影响，来诱惑人们的消费行为。而在大数据时代，尤其是监控资本主义兴起的时代（surveillance capitalism），将人们的行为数据进行提取，分析其中的情感信息进行更为精准的测量和影响，更是将情感的工业化带到了一个新纪元。

在作者看来，情感的工业化过程不仅仅推动了共情机器的产生，同时也创造了一种关于在科技时代人类如何看待情感生活的知识体系。根据福柯对知识-权力体系的研究思路，本书在其主题部分通过大量的经验案例（自然语言分析、声音分析、面部识别、VR/AR…），展示了科技圈和工业全是如何在生产关于情感的知识，制造关于情感的产品以及改变人们对于自我情感的认知。因为情感社会学是我个人很感兴趣的一个领域，所以在诸多案例中，我最想分享的作者对于表情识别技术发展的研究。根据作者的研究，在当下的facial coding技术中，被广泛采用的情感理论是基于心理学家Ekman和Wallace的基础情感理论，这一理论认为有生物学上的既定机制在控制人类的情绪反应，而面部肌肉功能就是这一机制下进行情感回馈的系统。基于这个理论，研究者发展了面部活动编码系统（Facial Action Coding System）。这个系统其实是提供了一个索引体系，让面部不同肌肉呈现出一定的状态时，其实以为着被分析的人在体验某种情绪。这一系统依靠Ekman两人的研究，把人类情感分为7种基本情感以及19种运动模块，大量的affective computing都依照这个理论进行情感分析活动。早些年流行的以微表情探案的美剧《别对我说谎》其实就是这种理论流行的一个副产品，当然，这种文化产品本身就是这一知识权力体系的有机组成，很多人看了以后大呼微表情心理学牛逼，然后认为人类情感本身就是如Ekman他们研究的那样。

而对于工业界来说，毕竟找个侦探去给每个人facial coding太不现实了，更有前途的做法应该是运用机器学习功能，通过大量的人脸来训练机器，让机器本身具备自动表情识别功能。结合摄像头的普及，这一技术的前景应该不错。当然，如今Facial coding在具体应用中，还是有很多技术难题：比如机器难以捕捉头在移动过程的表情变化，络腮胡子太浓密遮挡了嘴部肌肉活动，大家都带口罩了表情变化更难捕捉等等。当然，我们这里先不谈具体的技术问题。作者想要分享的是，其实基础情感理论只是诸多情感知识的一种，这种情感理论本身是进化论情感观的分支，其核心观点在于坚信情感表达，尤其是表情变化是进化的，生物性的，非习得的。但学术界不同的观点认为，情感本身是文化性的，社会性的，并不一定是进化性的。比如在基础情感中，恐惧和气愤是可以用进化论来解释，但嫉妒羡慕这种高度社会性的情感很难用进化论解释。而在文化影响中，欧美文化可能更倾向用夸张的表情来传递情感信息，但东亚文化的内敛表达使得在表情变化中肌肉运动的强度很难用欧美模板进行解释。而更复杂的情感，比如愁怨，怅然甚至无聊，基本上是很难通过facial coding，尤其是程序化的机器分析来解读的。再比如人类社会性习得的自省能力决定了人们可以修正自己的表情来掩盖自己的真实情感，这是弱化情感的文化社会性而只强调情感普遍性的基础情感理论很难解释的。

除了学术界的挑战，在技术开发过程中，自动化的facial coding也遇到工业化难题，根据作者对一家面部表情识别公司的采访，公司的日本客户发现，日本人的笑有高度的情境性：笑容的展现根据不同的情境往往具有复杂的含义。单纯的把笑容和快乐code起来的做法是很有问题的，因为很多笑容在日本环境中是用来传达负面情感的。而这家公司的创始人也表示，技术的族裔背景也是当下的一个重要问题，因为大量用来训练机器的素材都来自白种人，即便增加了不同人种的素材，文化的差异也会带来分类上的偏差。而成本的考量又让工业圈大部分人不愿意创造一个跨文化跨族裔的素材库来开发更复杂的面部表情识别系统。之所以一个简化的facial coding能够大行其道，就是因为在诸多关于情感的理论中，Ekman的基础理论对于工业产品的开发更为方便。它模型单一，可操作性高，可量化性强，所需要成本也相较而言最低。这一事实也使得作者担忧：随着面部识别技术的应用越来越广泛，基础情感理论似乎也在非学术界变得主流，我们对情感的看法看上去并不是因为某种学术更具真理性或者更准确，而是因为这种学说对于工业应用看上去更友好，成本更低，操作更方便。

除了大量知识谱系学的分析，作者最后也探讨了情感分析所带来的伦理问题。基于现有欧洲数据保护法律框架，作者发现大部分已有的情感分析技术如果不牵涉与其他数据联动识别出被分析对象身份的话，是属于合法范畴的。但这并不意味者情感分析产业没有伦理和法律问题。作者的问卷调查显示，大部分非科技从业者对于自己的情感数据被检测分析持怀疑态度，但局限于知识的壁垒，大部分普通市民并不清楚自己的情感信息在机器的后台会被如何处理。在这个意义上，透明性是整个科技产业需要在情感智能的开发过程中不能回避的问题。无论是市民还是消费者，作为现代社会的主体，都有权利决定自己的情感状态是否被共情机器进行操纵。因为现阶段对于科技的立法总是远远落后于科技实践本身，科技领域的立法任重道远。我们不能依靠情感分析和情感干预技术发展中最为活跃的工业主体去进行自我规训。毕竟市场竞争是残酷的，商业公司很难在竞争的压力中去选择遵循伦理而放弃开发更为激进的情感类产品。