LLM 文章

紧跟大语言模型的最新技术、工具与研究动态。我们的博客讨论数据科学、应用场景与负责任的人工智能实践。

其他技术：

Claude Fable 5 vs GPT-5.5：基准测试、定价与选型指南

Claude Fable 5 在原始能力基准上领先，但 GPT-5.5 在可用性、价格与更少的分类器干预方面取胜。本文教您如何选择。

2026年6月10日

在 MCP Atlas、SWE-bench Pro 和 GDPval 基准上比较 Claude Opus 4.8 与 Gemini 3.5 Flash，并结合价格与速度，帮助您为工作选择合适的模型。

2026年6月9日

对比 Anthropic 的 Claude Opus 4.8 与 OpenAI 的 GPT-5.5，在编码、推理、Agent 任务与定价方面的正面对决。

2026年6月1日

Codex 在云沙箱中运行“一次下达、自动完成”的代理；Cursor 在基于 VS Code 的 IDE 中提供实时掌控。对比代理、模型、定价与工作流。

2026年6月1日

一款为大规模、灵活的工具调用而生；另一款以强悍算力硬撼最难的推理问题。从编码、代理式工作流、多模态任务与定价维度，对比 Google 的 Gemini 3.5 Flash 与 OpenAI 的 GPT-5.5。

2026年5月26日

谷歌的速度优化型 Flash 模型对决 Anthropic 的深度编码旗舰，覆盖智能体工作流、推理、多模态任务与定价。

2026年5月25日

Cursor 最新的专有模型 Composer 2.5，引入针对性的 RL 反馈、更多合成训练任务，且其 Token 定价低于前沿模型。

2026年5月22日

Mira Murati 的 Thinking Machines Lab 构建了一种能同时“听”和“说”的模型。我们将拆解其功能，并与 GPT-Realtime-2 进行对比评测。

2026年5月13日

一条结构化的 AI 学习路线图，汇集从零开始学习 AI 的精选课程与资源，涵盖从 Python 基础到 LLM 与 Agentic AI。

2026年5月13日

Subquadratic 的 SubQ 模型声称拥有 1200 万 token 上下文窗口、52 倍效率与前沿性能。本文解析其 SSA 架构及基准测试的真实结论。

2026年5月12日

比较 OpenAI 的 GPT-5.5 与 Google 的 Gemini 3.1 Pro 在编码、推理、代理基准、定价与上下文限制方面的表现，帮助您选择合适的模型。

2026年5月11日

了解 DeepSeek V4 的功能、定价与 100 万上下文效率。我们对比 V4 Pro 与 Flash 的基准表现，并与 GPT-5.5 和 Opus 4.7 等前沿模型进行比较。

2026年5月4日