mllm, qnn, x64
code:https://github.com/UbiquitousLearning/mllm

1. 问题

通过自定义qualcomm graph使用高通的htp后端进行llm推理,网络暂时只有mllm,和https://github.com/chraac/llama.cpp。qualcomm是支持x64模拟htp推理的,这样比较好debug,方便调试。但是mllm中是不支持的。因为他htp后端强制使用了libcdsprpc.so来申请内存,就是高通说的shared mem。但是这部分的问题是可以修复的,需要自己或作者出点工作量。后续的人有同样问题的可参考。

2. other

继续diss一下qualcomm不支持单op的算力调用。diss

Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐