山东大学软件学院软件工程人机交互笔记

山东大学软件学院软件工程专业限选课人机交互的复习笔记，与2024-2025第一学期的考试内容基本吻合

二倍本贝

2213人浏览 · 2025-01-16 15:56:12

二倍本贝 · 2025-01-16 15:56:12 发布

写在前面

该笔记总结所涉及的大体内容与gw老师在2024-2025学年第一学期的最后一节人机交互课上所强调的重点内容基本吻合，与最后考试的内容相关性极高，建议之后选了这节课的学弟学妹们不要错过最后一节复习课（非常建议认真记录一下最后一节课提到的内容）。

相信大家翻到这篇博客的时候已经是逼近考试的关键时刻了，提前预祝大家都能取得满意的成绩。

如果你是在刚开学的时候就已经在全网搜索相关的学习资料，那真的是非常成功了（

gw老师上课时作为课堂习题布置的内容非常有可能被考到；反复强调的内容也是同理
人机交互在你软基本是一门背诵课，考前拿出2、3天左右，狠狠地背就完了，试卷上的字也是越多越好，除了文字表述外，也推荐在适当的题目中画一些示意图来加强表述

24-25第一学期重点内容

1.什么是人机交互

有人，有机（PC机、ai代理、机器人）；人-输入->机-输出->人（狭义）；一门交叉学科（广义）；

在设计系统时，不能增加用户的认知负荷

2.知觉的基本特征

选择性、整体性、理解性、恒常性

选择性 人在复杂环境中，在某一瞬间，不可能对众多事物进行感知，而总是有选择地把某一事物作为知觉对象，与此同时把其他事物作为知觉背景，这就是选择性

整体性 指人根据自己的知识经验把直接作用于感官的客观事物的多种属性整合为统一整体的组织加工过程。

理解性 人在知觉过程中，不是被动地把知觉对象的特点记下来，而是以过去的知识经验为依据，力求对知觉对象作出某种解释，使它具有一定的意义

恒常性 当客观条件在一定范围内改变时，人的知觉映象在相当程度上却保持着它的稳定性。

3.格式塔心理学

4.常用的输入输出设备

5.输出设备中，投影仪如何把数字图像转化为光学图像

投影仪，是一种可以将数字图像或视频投射到幕布上的设备。

1.分色 2.调制 3.合成

6.电影院的3D效果，立体显示技术

1.红蓝眼镜 2.偏振（眼镜和投影仪都要加） 3.主动式快门眼镜（效果好，成本高）

使用偏振眼镜进行投影时，建议使用金属幕布，而不是普通投影幕布。

7.多人多画面的实现

思考1：如何显示两个用户各自的视角?（2d和3d）

思考2：如何显示多个用户各自的视角?（2d和3d）

8.交互技术

基本交互技术

定位：确定平面或空间的一个点的坐标；直接定位（精确）、间接定位（非精确）
笔划输入用于输入一组顺序的坐标点；多次调用定位输入；一组点常用于显示折线或作为曲线的控制点
定值（或数值）输入用于设置物体旋转角度、缩放比例因子等
选择是在某个选择集中选出一个元素，使该对象成为后续行为的焦点；区域选择：在选择集中选出一组元素或者选择一个区域

思考：三维空间中的定位操作如何做？

远程控制设备（遥控器或手持设备）；手势识别技术；视觉追踪技术（识别和追踪用户的运动来实现定位）；语音控制；

笔划输入的应用

健康监测辅助手段：书写、绘制螺旋、绘制直线是一种方便快捷的检查方法，可以提供异常神经系统症状的客观证据，有助于震颤的鉴别。

思考：对于多点触摸设备，如何做选择？

精度和准确性；目标大小和密度；胖手指问题；多重选择；可视化反馈；用户体验

交互界面

多通道用户界面在不同的端都有哪些优势

GUI的三个重要思想

桌面隐喻

用人们熟悉的桌面上的图例清楚地表示计算机可以处理的能力。

直接隐喻：隐喻本身就带有操纵的对象（Word中的表格）
工具隐喻：代表所使用的工具（用打印机图标隐喻打印操作等）
过程隐喻：通过描述操作的过程来暗示该操作（Word中的撤销和恢复）

隐喻的主要缺点

占用屏幕空间
难以表达和支持比较抽象的信息

所见即所得

在WYSIWYG交互界面中，显示的用户交互行为，与应用程序最终产生的结果是一致的。（比如word的文本编辑）
非WYSIWYG的编辑器，用户只能看到文本的控制代码，对于最后的输出结果缺乏直观的认识。（latex编辑器）

直接操纵

直接操纵的基本思想是指可以把操作的对象、属性、关系显式地表示出来，用鼠标等指点设备直接从屏幕上获取形象化命令与数据的过程
直接操纵的对象是命令、数据或是对数据的某种操作
直接操纵的工具是屏幕坐标指点设备

直接操纵的特性

直接操纵的对象是动作或数据的形象隐喻
用指点和选择代替键盘输入
操作结果立即可见
支持逆向操作

优点

借助物理的、空间的或形象的表示，依赖于视觉和手动控制的参与，有利于解决问题和进行学习

缺点

不具备命令语言界面的某些优点；表示复杂语义、抽象语义比较困难

常见辅助交互技术

9.可用性分析与评估

（在答题时要写具体的东西）

测试目的

要考察哪些问题呢？考察不同3D显示方式是否影响虚拟体验式学习中的沉浸体验

实验假设

3D显示方式影响虚拟体验式学习中的沉浸体验，VR HMD 比3D投影能诱发更高水平的沉浸体验。

测试方法

1. 参与者/样本选择（抽样）简单随机抽样法、方便取样

2. 研究设计（实验）

3. 测试环境准备和设备 要确保测试环境的舒适、布置好测试相关系统和设备、准备好数据采集设备

4. 确定测量工具

5. 测试流程

讲指导语
练习
佩戴生理采集设备
平静，采集5-min基线
体验游戏，记录心流生理指标，完成心流量表
按设计体验不同交互模式
完成调查问卷和简短访谈

测试评价和结果分析

描述统计
使用独立样本t检验比较两组在沉浸体验和交互表现上的差异。
偏好调查

讨论形成测试报告

撰写测试报告，总结方法、结果和结论。
讨论测试过程中的任何问题和改进建议。

gw建议

在简答题中，使用图、表、文字等各种方式丰富表达出来

参考

山大软件24年上半年人机交互复习_工具隐喻直接隐喻过程隐喻的区别-CSDN博客

2024-2025山大软件人机交互考试（回忆版）_山东大学人机交互期末考试-CSDN博客

2023-2024山东大学软件学院人机交互技术_山东大学人机交互实验-CSDN博客

复习笔记

什么是人机交互：定义

人机交互定义（狭义）

人机交互从技术上讲(狭义的)，主要是研究人与计算机之间的信息交换，它主要包括人到计算机和计算机到人的信息交换两部分：

人机交互定义（广义）

人机交互是关于设计、评价和实现供人们使用的交互式计算机系统，且围绕这些方面的主要现象进行研究的学科

输出设备：光栅显示器

输出设备：投影仪

CRT三枪投影

工作原理

光学分色：三枪投影仪使用一个光学系统（阴影掩膜）来将输入的白光分解为红、绿、蓝三个颜色通道的光线。
调制：在三枪投影仪中，每个颜色通道都有一个相应的电子枪，即红色电子枪、绿色电子枪和蓝色电子枪。这些电子枪通过发射聚焦的电子束来控制光线的亮度。
合成：调制后的红、绿、蓝三个位面的光线会再次汇合并进入一个光学系统，使红、绿、蓝三个位面的光线重叠在一起。通过合成，三个颜色通道的光线会混合形成一个完整的彩色图像。

优点

色彩丰富和还原性好
无像素点和平滑过渡
极致的黑位表现

缺点

CRT投影仪的亮度值受限，目前在300流明以下
CRT投影仪操作复杂，特别是会聚调整繁琐，机身体积大，只适合安装于环境光较弱、相对固定的场所，不宜搬动

LCD 投影仪

工作原理

光源和分光镜：LCD投影仪使用超高压水银灯作为光源，它发出明亮的白光。这些白光经过光路系统中的分光镜，将其分解为红色（R）、绿色（G）和蓝色（B）三束光线。
液晶板：液晶板是LCD投影仪的关键组件。液晶板上有三块，分别对应R、G、B三个颜色通道。每个液晶单元在作用电场的控制下，通过调节光线的透射率来控制对应颜色的光的强度，作用类似于一个光阀门。
光学图像形成：R、G、B三束光线分别透过对应的液晶面板。根据输入信号，液晶单元会调节光线的透射率，形成R、G、B三个位面的光学图像。
合成和投射：R、G、B三个位面的光学图像经过合成棱镜进行合成，形成一个完整的彩色图像。彩色图像被投射到荧幕上。

优点

色彩还原较好
体积小，重量轻，携带方便（相对于如CRT或DLP投影仪，LCD投影仪通常具有更紧凑的设计）

缺点

灯泡亮度衰减
不同品牌、不同类型的投影机灯泡不能互换使用

DLP投影仪

DLP投影机原理

分色：在高亮白光源前面安装了一个高速旋转的色轮（转速至少60Hz，为1倍速，现可达6倍速）；三段式色轮的圆周被分为RGB三段，分别为R/G/B滤色镜。
调制：通过数字微镜（DMD）器件分别对RGB三束单色光源束进行可控反射，实现对光源的调制。
合成：调制后的RGB三束光信号依次顺序投射到屏幕上，在观众眼中合成彩色图像。（视觉暂留效应）

采用DLP技术的激光光源投影机，激光光源有20000小时的寿命，至少是灯泡寿命的10倍。

而激光属于固态光源性能稳定，光源衰减速度慢，且采用全密封引擎，防尘性高，灰尘对光路的影响小，对芯片起到很好的保护作用，对于长时间投影是非常好的选择。

DLP以DMD（数字微反射器）芯片作为光阀成像器件。

一片DMD芯片是由许多个微小的正方形反射镜片（微镜）构成的，微镜按行-列紧密地排列在一起，由支架和铰链连接固定在底座上，并由底部的电机控制其反射角度。

每一片微镜都对应着数字图像中的一个像素。故，DMD芯片的微镜数目决定了一台DLP投影仪的物理分辨率。

每一片微镜在底部电机的带动下，可呈现出两种反射角度，将入射光分别反射到出射光路或吸收光路，从而使出射光强呈现1(开)和0(闭)两种状态，即二进制状态。

DLP中的数字电路对数字图像中的每个像素都进行二进制编码，用于控制对应微镜的开-闭状态和持续时间，从而将二进制数字信号转换为二进制的反射光强信号，所以DLP投影仪是一种反射式调制投影仪。

优势

低能耗，激光光源的能耗只有传统高压汞灯50%；
低发热，冷光源对散热要求更低，于是投影机就可以更安静；
体积小，固态光源发光体的体积不及传统灯泡的十分之一；
寿命长，2万小时的寿命，投影机坏了光源可能还没坏；
色彩纯净，RBG三基色直接混合，图像更加绚丽；
闪闭性，激光光源具有快速开关的特性，可以随时开关，无需任何等待。没有炸灯的风险

思考：一个屏幕上出现多种不同图像如何设计？（使用投影仪）

需要3个DLP投影仪（RGB3色合成图像）
有几个视角，就用几个interval为一个周期（每个interval专供一个视角）
user_i 的眼镜只在自己的interval_i 是可视的

单台投影机的投影面积有限，如何扩大投影范围，以便展示更大的投影画面?

投影机的拼接融合（几何校正、亮度/色彩校正）

采用多台投影机组合而成，比普通的标准投影系统具备更大的显示尺寸、更宽的视野、更多的显示内容、更高的显示分辨率，以及更具冲击力和沉浸感的视觉效果。

几何校正：对投影图像变形失真和重叠区域画面纹理不齐进行的误差校正方法
亮度/色彩校正：对投影画面中有投影光线和画面的重叠部分的融合处理，消除多余亮度，减小颜色差异

流行的界面风格

多通道用户界面

1. 多通道用户界面（MUI）是指使用多种感觉和效应通道与系统进行交互的用户界面。

2. 多通道用户界面的交互特点包括：

使用多个感觉和效应通道：用户可以通过视觉、听觉、触觉等多种感官通道与系统交互，同时也可以通过语音、手势、触摸等多种效应通道输入信息.
允许非精确的交互：接受并处理模糊的、不精确的输入信息，如自然语言、模糊指令等，避免了传统界面中对精确输入的严格要求，降低了用户的认知负荷.
三维和直接操纵：支持三维空间中的直接操纵，用户可以像在现实世界中一样直接操作三维对象，增强了交互的直观性和自然性.
交互的双向性：感觉和效应通道具有双向性，用户不仅可以接收系统的反馈信息，还可以通过各种通道向系统输入信息，实现了信息的双向流动.
交互的隐含性：用户不需要显式地说明每个交互成分，而是通过自然的交互行为隐含地表达意图，如视线自然地落在感兴趣的对象上，手自然地握住被操纵的目标等.

3. 比较多通道用户界面与传统用户界面的区别，并分析多通道用户界面的优势：

方面	多通道用户界面	传统用户界面
交互通道	多种感觉和效应通道，如视觉、听觉、触觉、语音、手势等	主要依赖视觉和手动输入，如键盘、鼠标等
输入方式	允许非精确的、模糊的输入，如自然语言、模糊指令等	需要精确的输入，如精确的命令、坐标等
操纵方式	支持三维空间中的直接操纵，如直接操作三维对象	主要在二维平面上进行间接操纵，如通过菜单、按钮等
交互双向性	感觉和效应通道双向流动，如视线跟踪、语音反馈等	主要是单向的，用户输入信息，系统输出结果
交互隐含性	用户通过自然行为隐含地表达意图，如视线、手势等	用户需要显式地输入命令或操作界面元素

多通道用户界面的优势：

提高交互的自然性：通过多种自然的交互方式，如语音、手势、视线等，用户可以更自然地与系统交互，减少了学习成本和认知负荷.
增强交互的灵活性和效率：用户可以根据当前的情境和需求选择最合适的交互方式，如在嘈杂环境中使用手势，在需要精确控制时使用触摸等，提高了交互的灵活性和效率.
支持更丰富的交互体验：通过三维和直接操纵，用户可以体验到更真实、更丰富的交互场景，如在虚拟现实中直接操作三维对象，增强了用户的沉浸感和参与感.
适应不同用户群体：多通道用户界面可以满足不同用户群体的需求，如视障人士可以通过语音和触觉进行交互，老年人可以通过语音和简单的手势进行操作，提高了系统的可访问性.

4. 多通道用户界面在移动设备界面、VR界面、AR界面中分别有哪些优势：

移动设备界面：
- 便捷性：用户可以通过语音、手势等自然的方式与移动设备交互，无需复杂的操作，提高了使用的便捷性，如通过语音发送短信、设置闹钟等.
- 灵活性：在移动过程中，用户可以利用多种交互方式，如在走路时通过语音进行导航，在等待时通过触摸浏览网页等，增强了交互的灵活性.
- 多任务处理：多通道用户界面允许用户同时使用多种通道进行交互，如在听音乐时通过触摸操作界面，在通话时通过语音进行其他指令等，提高了多任务处理的能力.
VR界面：
- 沉浸感：通过三维和直接操纵，用户可以像在现实世界中一样直接操作虚拟环境中的物体，增强了沉浸感和真实感，如在虚拟环境中直接用手抓取物体、推动开关等.
- 自然交互：用户可以利用语音、手势等自然的方式与虚拟环境中的对象进行交互，如通过语音与虚拟角色对话，在虚拟场景中通过手势进行导航等，提高了交互的自然性和流畅性.
- 多感官体验：多通道用户界面可以整合视觉、听觉、触觉等多种感官通道，为用户提供更丰富的感官体验，如在虚拟环境中不仅可以看到美丽的场景，还能听到逼真的声音，感受到物体的触觉反馈等.
AR界面：
- 增强现实感：通过将虚拟信息叠加到现实世界中，用户可以通过视觉、听觉等多种通道同时感知现实世界和虚拟信息，增强了现实感和信息的可理解性，如在购物时通过AR查看商品的详细信息和用户评价等.
- 便捷交互：用户可以利用手势、语音等自然的方式与增强现实中的对象进行交互，如通过手势在空中选择菜单项，在现实场景中通过语音查询信息等，提高了交互的便捷性和效率.
- 场景适应性：多通道用户界面可以根据不同的现实场景和用户需求灵活选择交互方式，如在嘈杂的环境中使用手势，在需要精确操作时使用触摸等，增强了AR界面的场景适应性.

人机交互输入模式

由于输入设备是多种多样的，而且对一个应用程序而言，可以有多个输入设备，同一个设备又可能为多个任务服务，这就要求对输入过程的处理要有合理的模式。

请求模式(Request Mode)
采样模式（Sample Mode）
事件模式（Event Mode）

二维图形交互技术

1. 引力场约束在图形用户界面设计中的作用和优点

作用：

提高定位精度：引力场约束技术通过在特定图素（如直线段、端点等）周围设置一个虚拟的“引力区域”，当光标进入这个区域时，会被自动吸引到最近的图素上。这使得用户在进行定位操作时，能够更准确地将光标放置在目标位置上，即使光标初始位置与目标位置有一定偏差.
减少误操作：在没有引力场约束的情况下，用户在进行精细操作时，可能会因为手抖或其他原因导致光标偏离目标，从而产生误操作。引力场约束通过自动校正光标位置，降低了误操作的发生概率.
增强交互的自然性：引力场约束模拟了现实世界中的物理现象，用户在使用过程中会感受到一种自然的“吸附”效果，这种效果符合用户的直觉和预期，使得交互过程更加自然流畅.
提高操作效率：由于引力场约束能够快速将光标定位到目标位置，用户在进行重复性或连续性的操作时，可以节省大量的时间和精力，从而提高整体的操作效率.

优点：

用户友好性：对于不熟悉图形界面操作的用户来说，引力场约束可以降低操作难度，帮助他们更快地掌握图形界面的使用方法.
适应性：引力场约束可以根据不同的应用场景和用户需求进行调整，例如设置不同的引力强度、引力范围等，以适应不同的操作精度要求.
灵活性：引力场约束不仅可以应用于直线段、端点等简单的图素，还可以扩展到更复杂的图形对象，如曲线、多边形等，为图形界面设计提供了更大的灵活性.

应用实例：

在图形界面设计软件（如Adobe Photoshop、Illustrator等）中，引力场约束被广泛应用于图形对象的对齐和吸附操作。例如，当用户在绘制或移动一个图形对象时，如果该对象靠近另一个对象的边缘或中心点，引力场约束会自动将对象吸附到相应的边缘或中心点上，从而实现快速对齐。这种功能在进行页面布局、图标设计等需要精确对齐的场景中非常实用.

2. 橡皮筋技术在图形用户界面中的作用及应用案例

作用：

提供实时反馈：橡皮筋技术在用户进行图形绘制或选择操作时，能够实时显示图形的形状和位置变化。例如，在绘制矩形选区时，用户可以看到选区随着光标的移动而动态变化，这为用户提供了一种直观的视觉反馈，帮助他们更好地控制图形的绘制过程.
增强操作的直观性：通过橡皮筋技术，用户可以直观地看到图形的起点、终点以及中间的连接路径，这种直观的视觉表现形式使得用户能够更清晰地理解图形的结构和组成，从而更容易进行图形的编辑和修改.
简化操作步骤：橡皮筋技术可以将复杂的图形绘制过程简化为几个简单的步骤。例如，在绘制多边形时，用户只需确定每个顶点的位置，而不需要手动绘制每条边，系统会自动连接顶点形成多边形，从而简化了操作步骤，提高了操作效率.

应用案例：

在图形界面设计软件（如Microsoft PowerPoint、Google Slides等）中，橡皮筋技术被用于绘制图形和选择对象的操作。例如，当用户使用矩形选框工具选择一组对象时，橡皮筋技术会在光标移动过程中实时显示选框的大小和位置，用户可以通过拖动光标来调整选框的范围，当松开鼠标按钮时，选框内的所有对象即被选中。这种操作方式不仅直观易用，而且可以快速选择多个对象，提高了编辑和排版的效率.

颜色模型/系统

可用性特征（5E）

立体视觉引起疲劳

图像视差过大
融合与适应不匹配
画面超出人眼舒适的观看区域
立体失真

技术共进，成长同行——讯飞AI开发者社区

更多推荐

上下文工程驱动智能体向通用人工智能

例如在文章开头，我们举的产品经理和工程师之间的那一段对话，一个高质量智能体，不再只是让大模型回答用户的问题，而是通过上下文工程，帮助大模型在回答前获得更加结构化的输入，包括项目状态、需求文档、任务历史、甚至团队氛围，实现大模型更好的理解当前的任务规划、团队过往的沟通隐患、对方的工作状态与担忧、文档/知识库的实时状态等等。这和我们维护我们手机上内存很像，一开始所有应用和历史信息都保留，但当手机出现运