SmolVLM 家族迎来更小成员:256M 和 500M 模型

Hugging Face 最新发布了 SmolVLM 家族的两个新成员:SmolVLM-256M 和 SmolVLM-500M。SmolVLM-256M 仅有 2.56 亿参数,是目前世界上最小的视觉语言模型!

这两个模型建立在 SmolVLM 2B 的基础之上,注重效率、数据混合和新的设计权衡,在极小体积下依然保持了强大的多模态性能。

主要亮点:

  • SmolVLM-256M: 全球最小 VLM,适用于资源受限设备和浏览器端推理。
  • SmolVLM-500M: 5 亿参数模型,性能显著提升,同时保持轻量级。
  • 新的视觉编码器选择: 选择了更小的 SigLIP base patch-16/512 (93M),在性能和体积之间取得了平衡。
  • 更大的图像分辨率: 受苹果和谷歌研究的启发,使用更大的图像分辨率,提高了图像理解能力。
  • 训练优化: 新的标记化技巧显著提升了实际基准测试性能。
  • 与 SmolLM2 家族模型规模对齐: 提供了完整的更小规模 LLM + VLM 组合,方便用户选择。

改进之处:

  • 视觉编码器: 选择了更小的 SigLIP base patch-16/512,在性能和体积之间取得了平衡。
  • 数据混合: 增加了 MathWriting 数据集,并调整了数据集比例,更侧重于文档理解和图像描述。
  • 标记化优化: 增加了特殊标记来表示子图像分隔符,提高了训练稳定性和结果质量。

性能表现:

SmolVLM-256M 虽然体积小,但在图像描述、文档问答和基本视觉推理等多模态任务上表现出色。SmolVLM-500M 则在 DocVQA 和 MMMU 等任务上取得了接近更大模型的成绩,并且对提示词更鲁棒,更适合生产环境。此外,新模型的吞吐量也得到了显著提升。

ColSmolVLM:

基于 SmolVLM 训练的 ColSmolVLM 实现了最先进的多模态检索速度,性能可与 10 倍大小的模型媲美,使得构建可搜索数据库更加快速和经济。

SmolDocling:

与 IBM 合作构建的 SmolDocling 模型在文档理解方面展现了令人印象深刻的早期成果。

使用方法:

新 SmolVLM 模型与之前的 SmolVLM 代码兼容,可使用 transformers 和 MLX 进行推理和微调,并使用 TRL 进行对齐。同时,新版本还提供了 ONNX 检查点,并支持 WebGPU 演示。

SmolVLM-256M 和 SmolVLM-500M 的发布为资源受限环境和高吞吐量需求提供了强大的多模态解决方案,进一步推动了视觉语言模型的普及和应用。

来源:

https://huggingface.co/blog/smolervlm

LibreELEC (Omega) 12.0.2 发布,Kodi 升级至 21.2

LibreELEC 12.0.2 正式发布,搭载 Kodi (Omega) v21.2!本次更新带来了多项改进和修复,但也需要注意一些重要变化。

重要更新:

  • 64 位 ARM 设备架构切换:
    Raspberry Pi 4/5 等 64 位 ARM 设备的用户空间已从 ‘arm’ 切换到 ‘aarch64’。手动更新将无法在已切换的设备上列出 LibreELEC 12.0 版本,因为没有匹配的 arm 镜像(只有 aarch64)。用户需要手动更新,方法是将 LibreELEC 12 发行版文件(.tar 或 .img.gz)放入 /storage/.update 并重启。
  • Widevine CDN 文件夹:
    使用 Widevine 访问 DRM 保护的流媒体服务(如 Prime Video、Netflix 等)的用户,需要在首次使用前删除已切换设备上 /storage/.kodi/cdm 中的 Widevine CDN 文件夹,因为 现有的 arm 库不适用于 aarch64 系统。删除后首次使用时,系统将下载并安装 aarch64 Widevine 库。
  • Docker 容器:
    使用 LinuxServer.io 附加组件的 Docker 容器应该会自动处理架构更改。如果从控制台安装容器,则必须在更新前删除 arm 容器,因为它们无法在 aarch64 上运行。更新后,可以(重新)安装与 aarch64 (arm64) 兼容的容器版本。
  • 从 LibreELEC 9.x 及更早版本更新需要全新安装:
    由于 LibreELEC 10.x (Kodi v19) 以来引入的 Python 3 更改,从旧版本升级需要全新安装。

12.0.2 更新内容:

  • Kodi 更新至 21.2
  • Linux 内核更新至 6.6.71 (RPi2-5 6.6.70)
  • 其他一些小更新和修复

已知问题:

  • 全志 OrangePi Win 无法正常工作,目前尚未修复。
  • 全志和瑞芯微设备未经过广泛测试。如有问题,请报告。
  • 瑞芯微 RK3328 (Rock64 …) 设备目前无法工作。

其他平台相关信息:

  • Raspberry Pi:
    50/60fps H264 硬件解码可能需要在 config.txt 中添加 force_turbo=1core_freq_min=500 以避免音视频同步问题/跳帧。
  • Generic (x86_64):
    Generic 镜像使用 GBM/V4L2 图形栈,并支持 HDR/HDR10/HLG。Generic-Legacy 镜像运行 X11 图形栈,不支持 HDR。
  • AMLogic:
    AMLGX 镜像允许较旧的 Amlogic 硬件运行最新的 Kodi 版本和附加组件,但其功能完整性和稳定性不如旧的供应商内核版本。

升级建议:

Kodi 支持升级,但不支持降级。建议在升级之前创建备份,否则回滚到以前的版本可能会很复杂。

更多信息:

来源:

https://libreelec.tv/2025/01/22/libreelec-nexus-12-0-2/

更多内容请查阅 : blog-250131

Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐