win10+ollama+minicpm-v2.6进行多模态大模型调用测试记录

本次记录在win10系统下，使用ollama和minicpm-v2.6，进行图像分析。即输入一张图像给多模态大模型分析图像中的信息。

小俊俊的博客

2035人浏览 · 2024-11-28 13:51:07

小俊俊的博客 · 2024-11-28 13:51:07 发布

win10+ollama+minicpm-v2.6进行多模态大模型调用测试记录

前言

本次记录在win10系统下，使用ollama和minicpm-v2.6，进行图像分析。即输入一张图像给多模态大模型分析图像中的信息。

一、安装ollama

1.下载安装包

进入ollama官网，下载对应系统版本就行。官网链接
在这里插入图片描述

2.安装

安装时不能选择安装路径，默认直接安装到C盘。但是我们可以修改模型下载路径。
安装结束后，打开cmd终端，输入：

ollama list

出现列表就表示安装成功
在这里插入图片描述

修改模型存储路径，由于大模型的模型文件都比较大，直接存到默认路径（C:\Users\用户名.ollama）下的话，很容易撑爆C盘。修改步骤如下
1）在系统变量里面新建一个名字为“OLLAMA_MODELS”的变量。
2）变量值中写入你想保存模型的路径
3）重启电脑
在这里插入图片描述

二、下载模型文件

同样是进入ollama官网。选择你需要的模型
在这里插入图片描述
本次使用minicpm-v2.6:Q4_K_M模型，复制指令，到终端运行，进行模型下载。

下载结束后试运行一下，运行指令

ollama run aiden_lu/minicpm-v2.6:Q4_K_M

在这里插入图片描述

三、代码调用

1.pip安装ollama

先使用pip安装ollama,输入指令

pip install ollama

2.测试代码

测试代码如下

import ollama
response = ollama.chat(
    model = "aiden_lu/minicpm-v2.6:Q4_K_M",
    messages = [{
        'role':'user',
        'content':'请使用中文回答，图片中是什么东西？',
        'images':['1.jpg']
    }]
)

print(response['message']['content'])

增加耗时计算

import ollama
import time
start_time = time.time()  # 记录开始时间
response = ollama.chat(
    model = "aiden_lu/minicpm-v2.6:Q4_K_M",
    messages = [{
        'role':'user',
        'content':'请使用中文回答，图片中是什么东西？',
        'images':['1.jpg']
    }]
)

print(response['message']['content'])
end_time = time.time()  # 记录结束时间
elapsed_time = end_time - start_time  # 计算耗时
print(f"{elapsed_time:.4f} 秒")

图片请替换成你自己想测试的。我使用的图片如下

在这里插入图片描述

3.运行结果

测试结果如下，模型还是较为准确的输出了对该图像的分析结果。
在这里插入图片描述

技术共进，成长同行——讯飞AI开发者社区

更多推荐

[论文阅读] 人工智能 + 软件工程 | 真实场景下GitHub Copilot生产力之谜：2年数据揭示客观提交无提升，开发者却直呼“好用”

讯飞AI开发者社区

上下文工程驱动智能体向通用人工智能

例如在文章开头，我们举的产品经理和工程师之间的那一段对话，一个高质量智能体，不再只是让大模型回答用户的问题，而是通过上下文工程，帮助大模型在回答前获得更加结构化的输入，包括项目状态、需求文档、任务历史、甚至团队氛围，实现大模型更好的理解当前的任务规划、团队过往的沟通隐患、对方的工作状态与担忧、文档/知识库的实时状态等等。这和我们维护我们手机上内存很像，一开始所有应用和历史信息都保留，但当手机出现运