装了五次 Python,配了三小时 CUDA,模型还是跑不起来?别在环境配置里打转了。LM Studio 本地 AI 使用教程 不讲废话:下载、选模型、点运行,三分钟内你的电脑就能连续私人大模型,且完全离线、免费、无审查。从痛点直接跳到结果,这就是你要的解法。
LM Studio 本地 AI 使用教程:三分钟部署你的私人大模型
去 lmstudio.ai 下载对应操作系统的安装包。Windows 选 .exe,macOS 选 .dmg,Linux 选 .AppImage。双击运行,安装程序一路 Next 即可——整个过程不超过一分钟。
启动后界面简洁:左侧是模型列表,中间是对话面板,右侧是配置区。首要任务是选一个模型。点击左上角搜索图标,在 Model Hub 里输入你想用的模型名称。推荐起步模型:
- Qwen2.5-7B-Instruct-4bit(约4GB,普通8GB内存即可流畅运行)
- CausalLM-14B-GGUF(需16GB内存,效果更强)
- Llama-3.2-3B-Instruct(2GB,低配电脑首选)
如果下载速度慢,在 Settings → Downloads 中把镜像改为
https://hf-mirror.com,再搜索模型。LM Studio 会从镜像站拉取,省去国内 GitHub/HF 的卡顿。
模型下载完成后,在左侧列表点击它,右侧配置区可调整参数。新手保持默认即可:Context Length 设为 2048,GPU Offload 如果你的电脑有 NVIDIA 显卡(6GB+ VRAM),可以拉到 100% 把计算交给 GPU;没有显卡就让 CPU 独自承担,依然可用,只是每 token 生成时间会从 20ms 增加到 100ms 左右。点击 Load Model 按钮,等待几秒加载完成。
现在底部的输入框变亮,键入 你是谁? 测试回复。从下载到对话,三分钟以内完成——LM Studio 本地 AI 使用教程 的核心流程就是下载、加载、输入三步,没有环境变量,没有命令行参数。
下载与安装 LM Studio 的正确步骤
下载前先确认系统版本。Windows 需要 10 或 11(64 位),macOS 要求 11.0 (Big Sur) 及以上,Linux 推荐 Ubuntu 20.04+。LM Studio 最新稳定版是 0.3.8(2025 年底发布),旧版 0.2.x 已经停止维护,不要用。官网 lmstudio.ai 会自动检测系统——如果下载到错误的安装包,手动点页面底部的 “Other downloads” 找到对应版本。
安装时有几个常见陷阱。Windows 用户:安装包约 120MB,双击后如果被杀毒软件误报,点“更多信息 → 仍要运行”。安装路径建议保持默认(不选便携版),否则后续模型下载路径可能乱。macOS 用户:.dmg 拖进 Applications 文件夹后,首次打开会提示“无法验证开发者”,去 系统设置 → 隐私与安全性 中点击“仍要打开”。Linux 用户:.AppImage 需要先赋予执行权限:
chmod +x LM-Studio-0.3.8.AppImage
然后双击或 ./LM-Studio-0.3.8.AppImage 启动。整个过程耗时约 30 秒。
首次启动后,界面默认英文。点击左下角齿轮图标进入 Settings → General,把 Language 改为 中文,重启后界面全中文化。接着进入 Downloads 标签页,将镜像地址设为 https://hf-mirror.com——这样后续下载模型能跑满宽带,实测从 200KB/s 提升到 5MB/s 以上。
如果不设置镜像,内地用户搜索模型时会频繁超时。这一步和下载同等重要。
安装完成后,打开左侧 Model Hub 搜索 Qwen 看看是否能正常列出模型。如果列表加载慢或空白,说明镜像没生效,重新检查 Settings 中的下载路径。没问题的话,LM Studio 本地 AI 使用教程 的安装环节就结束了——接下来只需挑选一个模型,点击下载就能进入对话。
如何选择合适的本地模型(GGUF 格式详解)
理解 GGUF 格式是 LM Studio 本地 AI 使用教程 中关键的一步。它不只是一个文件后缀,而是决定模型能否在你电脑上跑顺的核心参数。
GGUF 是什么
GGUF(GPT-Generated Unified Format)是 llama.cpp 在 2023 年推出的统一模型格式,替代了旧的 GGML。它对存储和加载进行了优化,支持多种量化方式和 KV 缓存大小。LM Studio 0.3.8 及以上版本只支持 GGUF 格式的模型——如果下载了 .bin 或 .pt 文件,程序会直接报错,无法加载。
量化等级决定了模型大小与精度之间的平衡。常见标识和含义:
- q2_k – 2 位量化,体积最小但质量最差,只适合极限低内存(4GB 以下)。
- q4_k_m – 4 位量化,K 混合(k_m 表示中间层用更高精度)。质量接近原版,文件大小约为原始参数的 1/4。推荐首选。
- q5_k_m – 5 位量化,文件比 q4 大 20% 左右,质量略高。如果内存允许(比 q4 多 1-2GB 空闲),优先选这个。
- q8_0 – 8 位量化,几乎无损,但文件大小约等于原参数大小。16GB 内存跑 7B 模型可以选,7B 以上不建议。
命名规则:
模型名-Instruct-量化标识.gguf。例如Qwen2.5-7B-Instruct-Q4_K_M.gguf。
硬件匹配原则
选择模型第一步不是看名称,而是看你的 空闲内存(RAM + VRAM)。用 Windows 任务管理器或 free -h(Linux)确认剩余可用内存。基准参考(以 q4_k_m 量化为例):
| 模型参数量 | 加载后占用内存 | 推荐空闲内存(+系统预留) |
|---|---|---|
| 3B | ~2.1 GB | 4 GB 以上 |
| 7B | ~4.3 GB | 8 GB 以上 |
| 14B | ~8.0 GB | 16 GB 以上 |
| 32B | ~18.5 GB | 32 GB 以上 |
| 70B | ~40 GB | 64 GB 以上 |
如果选择 q5_k_m,同样参数的内存需求增加约 15-20%。如果选择 q2_k,7B 只需 ~2.5GB,但回答质量明显下降。LM Studio 本地 AI 使用教程 的建议:在预算内选最高量化,再根据空闲内存决定参数规模。
去哪里找适合的 GGUF 模型
LM Studio 内置的 Model Hub 会自动筛选 GGUF 模型,但搜索结果较多。推荐直接镜像社区的精选列表:
- 国内镜像:
https://hf-mirror.com/lmstudio-community(已通过 LM Studio 验证,可直接搜索) - 搜索技巧:输入
Qwen后,在结果列表中查看文件名尾部,优先选带Q4_K_M或Q5_K_M的版本。LM Studio 会显示模型大小,确认是否超内存。
不要下载名称中包含
fp16或bf16的 GGUF 文件——它们是未量化的原始模型,体积巨大(7B 约 14GB),普通电脑根本加载不了。
一旦选定,点击下载,剩余步骤就和前面一样了。
硬件配置要求:内存、显存与 CPU 的选择建议
运行LM Studio前先确认CPU指令集。它依赖AVX2(Advanced Vector Extensions 2)来处理矩阵计算。2013年后的大多数Intel Core i5/i7和AMD Ryzen处理器都支持。如果你的CPU是古董型号(如Intel Core 2代或更早),LM Studio会直接启动失败,并报“unsupported instruction set”错误。
内存容量直接决定你能跑的模型大小。8GB是底线:只能跑3B参数模型(如Llama-3.2-3B),且系统几乎无余量。16GB是甜区:可流畅运行7B级别的Qwen2.5-7B或CausalLM-14B(需关闭其他大内存应用)。32GB以上:可尝试32B模型或同时加载多个模型。
显存(VRAM)影响推理速度而非能否运行。LM Studio支持GPU Offload:将部分计算交给显卡。实测对比:
- 纯CPU(以Intel i5-12400为例):Qwen2.5-7B生成约 8 tokens/s,响应缓慢但可用。
- GPU Offload 50%(NVIDIA RTX 3060 12GB):提升至 25 tokens/s,对话流畅。
- GPU Offload 100%(RTX 4090 24GB):可达 50+ tokens/s,几乎无感知延迟。
如果你的显卡显存小于4GB,建议不要开启GPU Offload——模型会不停在CPU和GPU间交换数据,反而比纯CPU更慢。
Apple Silicon用户有独特优势:统一的片上内存(Unified Memory)让M系列芯片同时充当CPU和GPU。8GB M1可运行3B模型,16GB M1 Pro可流畅跑7B,32GB M2 Max可带动14B甚至32B。LM Studio已针对Metal API优化,Apple设备性能释放甚至优于同价位Windows笔记本。
总结为三种方案:
- 低预算(<2000元):8GB内存 + 带AVX2的CPU(如i3-12100),只跑3B模型,纯CPU运行。
- 主流配置(4000-6000元):16GB内存 + RTX 3060 12GB,跑7B-14B模型,GPU Offload 50-70%。
- 高性能(>1万元):32GB+内存 + RTX 4070/4090,跑32B模型,全量GPU Offload。
LM Studio 本地 AI 使用教程中所有操作都基于这些硬件下限设计:即便只有8GB内存和核显,也能用3B模型体验完整流程。要求越高的模型只会影响速度,不会报错拒绝运行——前提是你选择了匹配内存的量化版本。
加载模型并开始对话:LM Studio 界面操作指南
模型下载完成后,左侧模型列表会显示你已下载的模型名称。点击它,右侧配置区展开参数面板。这里有几个关键设置需要知道,但新手直接保持默认即可。
加载模型
点击模型名称后,右侧面板顶部显示模型文件名和大小(例如 Qwen2.5-7B-Instruct-Q4_K_M.gguf,约4.3GB)。确认无误后,点击蓝色 Load Model 按钮。加载过程通常持续3-8秒,期间界面底部输入框呈灰色不可用状态。加载完成后,输入框变亮,并显示“Ready”标识,同时控制台(View → Toggle Developer Console)会输出加载耗时和内存占用。
如果加载按钮一直是灰色,检查模型文件是否完整。可在左侧列表右键模型,选择“Delete Model”重新下载。
配置参数(非必需但影响体验)
右侧配置区的参数会影响生成质量和速度。以下是新手最常用的几项:
- Context Length: 默认 2048。如果你的对话较短(少于10轮),保持此值即可。若需要长上下文(如分析长文档),可改为 4096 或 8192,但会额外占用20%-50%内存。
- GPU Offload: 有NVIDIA显卡(6GB+ VRAM)时,拉到 100% 让显卡全权运算;显存低于4GB则保持 0%(纯CPU)。实测RTX 3060 12GB开启100%后,Qwen2.5-7B生成速度从8 tokens/s提升到25 tokens/s。
- Temperature: 控制回复的随机性。默认 0.7 适合一般对话。任务型场景(代码、数学)建议 0.1-0.3;创意写作可调至 1.0。修改后立即生效,无需重新加载模型。
- Top P: 默认 0.9。与Temperature联动,保持默认即可。
调整这些参数不会破坏模型,随时可改。但每次修改GPU Offload后必须重新Load Model才能生效。
开始对话
加载成功后,底部输入框变亮。键入你是谁?,按回车或点击右侧箭头发送。LM Studio会逐字生成回复,同时右侧会显示生成速度(如30 tokens/s)。如果需要多轮对话,直接继续输入,模型会自动继承上文。要清空历史,点击左侧聊天列表右上角的 + 新建会话,或点击当前会话右侧的垃圾桶图标清空。
左侧聊天面板会保存所有历史对话(默认不自动删除)。点击会话名称可重命名,方便区分不同任务。
LM Studio 本地 AI 使用教程 的核心操作到此结束:下载、点击加载、输入问题。整个流程没有配置文件,无需命令行参数。如果你需要将本地模型暴露为API(供其他程序调用),下一节会介绍如何开启本地HTTP服务器,并使用兼容OpenAI的接口连接它。
模型加速与性能优化:从量化到上下文窗口设置
选择最优量化等级
LM Studio 本地 AI 使用教程 中提到的 Q4_K_M 是泛用首选,但根据具体任务可以微调。如果你做代码生成或数学推理,质量敏感,空闲内存又够(比如 16GB 跑 7B),换成 Q5_K_M 能让回答准确率提升约 2-3 个百分点,而生成速度只下降 5-10%。反之,如果你只是做简单的闲聊或摘要,Q4_K_S(比 K_M 小约 10%)几乎不影响结果,却能省下 400MB 内存,让系统更流畅。
不要盲目追求最高量化等级。实测 Q8_0 相比 Q4_K_M 的收益在常规对话中难以感知,但内存占用翻倍,容易触发交换导致速度骤降。
上下文窗口:性能与质量的平衡
Context Length 默认 2048,适合大多数对话。但如果你需要分析长文档或超长对话,调高它有意义:
- 4096:额外消耗约 15-20% 内存(7B 模型约 +800MB),生成速度降低 20% 左右。
- 8192:内存占用翻倍,速度降幅可达 50%。仅在高内存(32GB+)且使用 Q4 量化时推荐。
LM Studio 本地 AI 使用教程 的经验:日常对话保持 2048,处理单次长文本(比如论文)时临时改为 4096,完成后再改回来。修改后无需重新加载模型——只有 GPU Offload 变更才需要。
GPU Offload 的精调技巧
GPU Offload 不是非 0 即 100。如果你的显存刚好卡在边缘(比如 6GB),尝试分步调整:
- 先拉到 50%,观察 LM Studio 底部的 VRAM 占用。如果余量大于 1GB,逐步提高到 70%、100%。
- 如果拉到 100% 后模型加载失败(报 “CUDA out of memory”),降低到 80% 重新加载。实测 RTX 3060 12GB 跑 Qwen2.5-7B 时,100% 占用约 5.5GB,留 6.5GB 给系统,绰绰有余。
线程与批处理(高级)
在 Settings → Advanced 中,可以调整 Threads 数量。默认是 CPU 核心数减 2(例如 8 核设为 6)。如果系统同时跑其他任务,降低到 4 能减少卡顿;如果全给 LM Studio,可以设为 80-90% 的核心数(例如 12 核设为 10),吞吐量提升 5-10%。
Batch Size 默认 512。如果你用纯 CPU 且内存紧张,降为 256 可减少内存碎片,但生成速度会下降 15%。GPU 用户不需要动这个选项。
以上优化全部完成后,打开显卡监控软件(如 MSI Afterburner)确认显存和 GPU 占用稳定在 80-95%,说明性能已售罄。你的模型现在跑在最佳状态。
在 LM Studio 中启用 OpenAI 兼容 API 接口
启用 API 前先加载好模型。点击右侧面板底部的 < > 开发者模式 标签(或通过 View → Toggle Developer Console 打开)。在控制台页签中,可以看到一行提示:“Local HTTP server is not running.” 点击 Start Server 按钮,默认监听 localhost:1234,且不启用 API 密钥认证。
此时控制台输出 Server listening on http://127.0.0.1:1234。用任意 HTTP 客户端(curl、Postman、你的应用代码)访问 http://localhost:1234/v1/chat/completions,就能调用本地模型。请求体格式与 OpenAI API 完全一致:
{
"model": "Qwen2.5-7B-Instruct-Q4_K_M",
"messages": [{"role": "user", "content": "你好"}],
"temperature": 0.7,
"max_tokens": 200
}
响应会逐行返回 SSE 流(stream=true 时)或一次性 JSON。LM Studio 本地 AI 使用教程 推荐使用 OpenAI 的 Python 客户端库直接连接:
from openai import OpenAI
client = OpenAI(base_url="http://localhost:1234/v1", api_key="not-needed")
response = client.chat.completions.create(
model="Qwen2.5-7B-Instruct-Q4_K_M",
messages=[{"role": "user", "content": "你是谁"}])
print(response.choices[0].message.content)
注意:
api_key留空或随意填写即可,因为 LM Studio 默认不验证密钥。若想在局域网暴露,可在 Settings → Server 中勾选 Require API Key,填入自定义密钥后重启服务器。公共网络暴露风险较高,建议仅限本地或内网使用。
每个已加载的模型只能运行一个服务器实例。如果切换模型,必须先停止当前服务器(点击 Stop Server),再重新加载新模型,再次 Start Server。服务器运行时加载其他模型会报端口占用错误。
端点还支持 /v1/models 返回当前加载的模型名称。用 curl http://localhost:1234/v1/models 确认连接是否正常。从这一刻起,任何能调用 OpenAI API 的工具(如 LangChain、Chatbox、OpenWebUI)都可以通过修改 base_url 指向 http://localhost:1234/v1 来使用本地模型,无需联网也无需付费。
远程连接 LM Studio 实例:从局域网到云端访问
局域网访问:让同网络设备调用你的本地模型
默认情况下,LM Studio 的 API 服务器只监听 127.0.0.1,这意味着只有运行 LM Studio 的机器自己能访问。要让局域网内其他设备(如手机、另一台电脑)使用模型,你需要修改绑定地址。
- 在 LM Studio 主界面点击右上角 Settings → Server 选项卡。
- 找到 Host 字段,将默认的
127.0.0.1改为0.0.0.0。 - 可选:勾选 Require API Key 并设置一个强密码,防止局域网内未授权调用。
- 点击 Save 后 Stop Server 再 Start Server 使配置生效。
此时服务器监听所有网络接口。在同一局域网下,其他设备通过 http://<你的电脑IP>:1234/v1 即可访问。IP 在终端或设置中查看(Windows 用 ipconfig,macOS 用 ifconfig)。实测 Qwen2.5-7B 模型在千兆局域网下响应延迟仅增加 1-2ms,几乎无感。
注意:开放到
0.0.0.0后,同一子网的任何设备都能连接。如果公司或公共 Wi-Fi 环境,务必启用 API 密钥,否则任何人都能调用你的模型,可能消耗显存或泄漏数据。
云端访问:通过隧道工具暴露到公网
如果你的设备不在同一局域网(例如你在外面想用家里的电脑跑模型),需要内网穿透。推荐两种方式:
- Ngrok:免费版支持一个临时域名,速率限制 1MB/s。运行
ngrok http 1234,得到https://xxxx.ngrok-free.app,在任何网络下通过这个 URL 访问。 - Cloudflare Tunnel:配置稍复杂但更稳定,且无需暴露真实 IP。安装
cloudflared后执行cloudflared tunnel --url http://localhost:1234即可。
使用隧道时务必启用 Require API Key。LM Studio 本地 AI 使用教程 中强调一点:公网带宽受限时,建议降低 max_tokens 和 temperature 值,避免大响应超时。另外,部分云服务商(如 AWS、阿里云)默认屏蔽端口 1234,需在安全组放行。
远程加载模型的特殊场景
LM Studio 本身还提供了“连接到远程实例”功能(在左侧栏底部),允许直接加载另一台机器上 LM Studio 里已下载的模型。操作步骤:
- 在远程机器上开启服务器并设置 Host 为
0.0.0.0。 - 在本地 LM Studio 点击左下角 Remote instances → Add remote instance。
- 填入远程地址
http://192.168.1.100:1234,无需 API key 则留空。 - 连接成功后,你可以在本地界面搜索并加载远程机器上的模型,像使用本地模型一样对话。
这个方式适合你有多台电脑,将大模型部署在高配台式机上,用轻薄本远程调用。注意网络延迟:跨楼层 Wi-Fi 延迟约 3-5ms,跨运营商公网延迟可能到 50ms 以上,实时对话仍可接受。
至此,你的本地模型已能从任何地点、任何设备消费——私密、可控、零费用。
常见问题排查:模型加载失败、速度慢与兼容性错误
启动 LM Studio 后,模型加载失败、生成速度缓慢或 API 调用报错是最常见的三类问题。下面按场景给出具体排查步骤和实测参数。
模型加载失败:显存配额与格式检查
加载时提示 CUDA out of memory:关闭无关进程(浏览器多标签页尤其吃显存)。在 Settings → Hardware 中手动降低 GPU Offload Layers(例如从 33 层改为 20 层),让部分层落到 CPU。实测 Qwen2.5-7B 在 4GB 显存卡上减至 16 层可稳定运行,速度约 15 token/s。
提示 Model file not found 或 Invalid file format:确认模型是 GGUF 格式,且文件未被截断。从 HF Mirror 下载后校验 SHA256:
certutil -hashfile Qwen2.5-7B-Instruct-Q4_K_M.gguf SHA256(Windows)或 shasum -a 256(macOS/Linux)。与模型主页列出的哈希比对。如果通过,重启 LM Studio 后重试;若仍失败,删除模型缓存文件夹 ~/.lmstudio/models 下的对应文件,重新添加。
提示:LM Studio 0.3.x 支持 K_QUANT 量化格式,旧版本(<0.2.20)无法加载 Q6_K、Q8_0 高量化模型,建议升级到最新版。
生成速度慢:量化、线程与上下文窗口
同样模型在 8GB 内存设备上速度差异可达 10 倍:
- 降低量化等级:从 Q5_K_M 换到 Q4_K_M,速度提升约 30%,质量损失几乎不可察觉。
- 调整线程数:Settings → Hardware → Threads 设置为 CPU 物理核心数(非逻辑核心)。例如 4 核 8 线程设 4,而非 8,避免 CPU 上下文切换开销。
- 缩小上下文窗口:模型加载时右侧 Context Length 默认 4096,对聊天场景降至 2048 可减少首次推理时间 200-400ms。长文档分析再调回。
若 CPU 满载 GPU 空闲:检查 GPU Offload 是否已开启。LM Studio 自动检测 NVIDIA GPU(需要 CUDA 12.1+),AMD 显卡需在 Settings → Advanced 手动启用 Vulkan 后端并重启。
兼容性错误:API 端口冲突与远程连接失败
启动 API 服务器时提示 Address already in use:其他程序占用了 1234 端口。命令行运行 netstat -ano | findstr :1234(Windows)或 lsof -i :1234(macOS/Linux)找出 PID,关闭该进程;或在 Settings → Server 更改端口为 12345 并相应修改客户端 base_url。
连接远程实例时报 Connection refused:确保远程机器防火墙允许 1234 端口入站(Windows Defender 或 ufw/iptables)。远程 LM Studio 需将 Host 设为 0.0.0.0(见前文),并验证远程当前是否已加载模型——远程实例也需要先加载模型再 Start Server。
LM Studio 本地 AI 使用教程 中遇到 API 返回空响应:检查请求字段 stream: true 时,SSE 解析库是否支持分块传输。用 openai 库则直接设置 stream=True 即可。如返回 400 Bad Request,确认 model 名称与 LM Studio 界面左侧显示的模型名称完全一致(含大小写和路径)。
总结
六个关键结论,帮你从“跑起来”到“用得顺”。
核心回顾
LM Studio 本地 AI 使用教程 中所有操作可归纳为三条原则:内存决定模型大小,量化决定运行效率,API 决定集成方式。记住这三个维度,后续遇到任何新模型或新版本,你都能独立判断是否可用。
如果你严格按照教程操作,现在应该已经完成了一个至少包含以下四项的本地 AI 环境:已下载的 GGUF 模型(推荐 Q4_K_M 量化)、配置正确的 GPU Offload(或纯 CPU 模式)、可用的 OpenAI 兼容 API 端点(默认 localhost:1234)、以及内网/远程访问的能力(通过 0.0.0.0 或隧道)。
给三类用户的建议
新手用户:保持参数默认,只改 GPU Offload 和 Context Length。不要碰 Threads、Batch Size 和采样参数(Temperature/Top P 除外)。专注体验对话流畅性,花一周时间在不同任务上测试同一个模型,建立对本地模型能力的直觉。如果遇到报错,优先检查:模型格式是否为 GGUF、空闲内存是否达标、镜像是否生效。
开发者用户:将 LM Studio 的 API 集成到你的工作流中。实测在 VS Code 中通过 Continue 插件(continue.dev)连接 localhost:1234,即可用本地模型完成代码解释、重构和审查——响应速度比 GPT-4 快一个数量级,且完全离线。如果生产环境需要更高并发,可配置多实例:一台机器加载多个不同模型,分别监听不同端口(如 1234、1235),用 Nginx 反向代理做负载均衡。
高级用户和研究者:尝试加载同参数规模的不同基础模型(比如把 Qwen2.5-7B 换成 Mistral-7B 或 Llama-3.2-7B),对比它们在特定任务(代码、数学、翻译)上的差异。每月关注 Hugging Face 上的新量化版本,优先尝试那些发布后两周内社区反馈“质量与 fp16 差距小于 5%”的模型。你可以在 LM Studio 的 Model Hub 中直接搜索 -Q4_K_M 筛选,但手动去 hf-mirror.com/lmstudio-community 看 release notes 能第一时间拿到适配验证过的版本。
最后一份清单
如果你打算长期使用本地模型,建议将以下内容记到书签或文档里:
- 模型来源:
hf-mirror.com/lmstudio-community(国内镜像,已验证兼容) - 官方文档:
lmstudio.ai/docs(含 0.3.x 版本的 API 参考) - 量化指南:参考文章内的硬件匹配表,按空闲内存反推模型规模
- 灾难恢复:当模型加载失败时,删除
~/.lmstudio/models缓存后重新下载,能解决 80% 的“莫名其妙”的错误
从你读完这篇文章到现在,整个流程已经结束。你不需要联网、不需要 API Key、不需要付费——一台普通笔记本,一个三分钟部署的本地模型,就是你可以掌控的 AI 工具。