Intern-S2-Preview-FP8

二〇二六年六月六日 · 英文原文

摘要

Intern团队推出Intern-S2-Preview，一个35B参数的科学多模态基础模型，基于Qwen3.5继续预训练。该模型通过任务规模扩展，将数百个专业科学任务纳入从预训练到强化学习的全链条训练流程，在多个核心科学任务上达到与万亿级Intern-S1-Pro相当的性能。模型引入实值预测模块，具备材料晶体结构生成能力，并在科学agent benchmark上取得优异结果。RL阶段采用带KL loss的共享权重MTP和CoT压缩技术，提升推理效率。模型支持128K tokens文本推理和64K tokens多模态推理，可通过LMDeploy、vLLM、SGLang部署，兼容OpenAI和Anthropic API。

Intern-S2-Preview-FP8

💻Github Repo • 🤗Model Collections • 💬Online Chat

引言

我们推出 Intern-S2-Preview，一个高效的 35B 科学多模态基础模型。除了传统的参数和数据规模扩展，Intern-S2-Preview 探索了 任务规模扩展：通过增加科学任务的难度、多样性和覆盖范围，进一步释放模型能力。

通过将专业科学任务扩展为从预训练到强化学习的全链条训练流程，Intern-S2-Preview 在多个核心专业科学任务上达到了与万亿级 Intern-S1-Pro 相当的性能，而仅使用 35B 参数（基于 Qwen3.5 继续预训练）。同时，它保持了强大的通用推理、多模态理解和 agent 能力。

特性

全链条训练下的科学任务规模扩展。 Intern-S2-Preview 将数百个专业科学任务从预训练扩展到 RL，仅用 35B 参数就在多个专业领域实现了强大性能。它进一步增强了小分子结构的空间建模能力，并引入了实值预测模块，成为首个同时具备材料晶体结构生成能力和强大通用能力的开源模型。
面向科学工作流的增强 agent 能力。 Intern-S2-Preview 在前一代基础上显著提升了 agent 能力，在多个科学 agent benchmark 上取得了优异结果。
结合 MTP 和 CoT 压缩的高效 RL 推理。 在 RL 阶段，Intern-S2-Preview 采用带 KL loss 的共享权重 MTP，以减少训练与推理行为之间的不匹配，显著提高了 MTP 接受率和 token 生成速度。同时引入 CoT 压缩技术，在保持强大推理能力的同时缩短响应长度，实现了性能与效率的双重提升。

性能

我们在多种 benchmark 上评估了 Intern-S2-Preview，包括通用数据集和科学数据集。以下报告了与近期 VLM 和 LLM 的性能对比。

性能对比

注意：下划线表示开源模型中的最佳性能，粗体表示所有模型中的最佳性能。

我们使用 OpenCompass 和 VLMEvalKit 评估所有模型。对于文本推理 benchmark，Intern-S2-Preview 的最大推理长度为 128K tokens；对于多模态 benchmark，最大推理长度为 64K tokens。

快速开始

采样参数

我们建议使用以下超参数以获得更佳效果：

top_p = 0.95
top_k = 50
min_p = 0.0
temperature = 0.8

服务部署

Intern-S2-Preview 可使用以下任一 LLM 推理框架部署：

LMDeploy
vLLM
SGLang

这些框架的详细部署示例请参见模型部署指南。

高级用法

工具调用

工具调用让模型能够通过调用外部工具和 API 来扩展其能力。以下示例展示了如何通过 OpenAI 兼容的 API（基于 lmdeploy api server）获取最新天气预报。

      
      
from openai import OpenAI
import json


def get_current_temperature(location: str, unit: str = "celsius"):
    """获取某个位置的当前温度。

    Args:
        location: 要获取温度的位置，格式为"城市, 州, 国家"。
        unit: 返回温度的单位。默认为"celsius"。（可选值：["celsius", "fahrenheit"]）

    Returns:
        以字典形式返回温度、位置和单位
    """
    return {
        "temperature": 26.1,
        "location": location,
        "unit": unit,
    }


def get_temperature_date(location: str, date: str, unit: str = "celsius"):
    """获取某个位置和日期的温度。

    Args:
        location: 要获取温度的位置，格式为"城市, 州, 国家"。
        date: 要获取温度的日期，格式为"年-月-日"。
        unit: 返回温度的单位。默认为"celsius"。（可选值：["celsius", "fahrenheit"]）

    Returns:
        以字典形式返回温度、位置、日期和单位
    """
    return {
        "temperature": 25.9,
        "location": location,
        "date": date,
        "unit": unit,
    }

def get_function_by_name(name):
    if name == "get_current_temperature":
        return get_current_temperature
    if name == "get_temperature_date":
        return get_temperature_date

tools = [{
    'type': 'function',
    'function': {
        'name': 'get_current_temperature',
        'description': '获取某个位置的当前温度。',
        'parameters': {
            'type': 'object',
            'properties': {
                'location': {
                    'type': 'string',
                    'description': '要获取温度的位置，格式为\'城市, 州, 国家\'。'
                },
                'unit': {
                    'type': 'string',
                    'enum': [
                        'celsius',
                        'fahrenheit'
                    ],
                    'description': '返回温度的单位。默认为\'celsius\'。'
                }
            },
            'required': [
                'location'
            ]
        }
    }
}, {
    'type': 'function',
    'function': {
        'name': 'get_temperature_date',
        'description': '获取某个位置和日期的温度。',
        'parameters': {
            'type': 'object',
            'properties': {
                'location': {
                    'type': 'string',
                    'description': '要获取温度的位置，格式为\'城市, 州, 国家\'。'
                },
                'date': {
                    'type': 'string',
                    'description': '要获取温度的日期，格式为\'年-月-日\'。'
                },
                'unit': {
                    'type': 'string',
                    'enum': [
                        'celsius',
                        'fahrenheit'
                    ],
                    'description': '返回温度的单位。默认为\'celsius\'。'
                }
            },
            'required': [
                'location',
                'date'
            ]
        }
    }
}]



messages = [
    {'role': 'user', 'content': '今天是2024-11-14，旧金山现在的温度是多少？明天呢？'}
]

openai_api_key = "EMPTY"
openai_api_base = "http://0.0.0.0:23333/v1"
client = OpenAI(
    api_key=openai_api_key,
    base_url=openai_api_base,
)
model_name = client.models.list().data[0].id
response = client.chat.completions.create(
    model=model_name,
    messages=messages,
    max_tokens=32768,
    temperature=0.8,
    top_p=0.95,
    extra_body=dict(spaces_between_special_tokens=False),
    tools=tools)
print(response.choices[0].message)
messages.append(response.choices[0].message)

for tool_call in response.choices[0].message.tool_calls:
    tool_call_args = json.loads(tool_call.function.arguments)
    tool_call_result = get_function_by_name(tool_call.function.name)(**tool_call_args)
    tool_call_result = json.dumps(tool_call_result, ensure_ascii=False)
    messages.append({
        'role': 'tool',
        'name': tool_call.function.name,
        'content': tool_call_result,
        'tool_call_id': tool_call.id
    })

response = client.chat.completions.create(
    model=model_name,
    messages=messages,
    temperature=0.8,
    top_p=0.95,
    extra_body=dict(spaces_between_special_tokens=False),
    tools=tools)
print(response.choices[0].message)

在思考模式与非思考模式之间切换

Intern-S2-Preview 默认启用思考模式，以增强模型的推理能力，生成更高质量的响应。可通过在 tokenizer.apply_chat_template 中设置 enable_thinking=False 来禁用此功能。

text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=False  # 思考模式指示符
)

在服务 Intern-S2-Preview 模型时，可以通过在请求中调整 enable_thinking 参数来动态控制思考模式。

from openai import OpenAI
import json

messages = [
{
    'role': 'user',
    'content': '你是谁'
}, {
    'role': 'assistant',
    'content': '我是一个AI'
}, {
    'role': 'user',
    'content': 'AGI是什么？'
}]

openai_api_key = "EMPTY"
openai_api_base = "http://0.0.0.0:23333/v1"
client = OpenAI(
    api_key=openai_api_key,
    base_url=openai_api_base,
)
model_name = client.models.list().data[0].id

response = client.chat.completions.create(
    model=model_name,
    messages=messages,
    temperature=0.8,
    top_p=0.95,
    max_tokens=2048,
    extra_body={
        "chat_template_kwargs": {"enable_thinking": False}
    }
)
print(json.dumps(response.model_dump(), indent=2, ensure_ascii=False))

注意：对于 agent 任务，我们不建议禁用思考模式。

Agent 集成

Intern-S2-Preview 可以通过两种方式接入 agent 框架：连接到自托管部署，或调用官方 InternLM API。以下介绍这两种方式，并给出 agent 框架（OpenClaw、Hermes 等）和 Claude Code 的示例。

1. 自托管部署（以 LMDeploy 为例）

首先，按照模型部署指南使用 LMDeploy 部署模型。以下示例假设服务器运行在 http://0.0.0.0:23333。

连接 Agent 框架

大多数 agent 框架（OpenClaw、Hermes 等）接受 OpenAI 兼容的端点。将其指向 LMDeploy 服务器的 base url http://0.0.0.0:23333/v1。

您可以使用以下命令检查连接：

curl http://0.0.0.0:23333/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer EMPTY" \
  -d '{
    "model": "internlm/Intern-S2-Preview",
    "messages": [
      {"role": "user", "content": "Hello"}
    ],
    "temperature": 0.8,
    "top_p": 0.95
  }'

或者，您可以通过环境变量配置 agent 框架：

export OPENAI_API_KEY=EMPTY
export OPENAI_BASE_URL=http://0.0.0.0:23333/v1
export OPENAI_MODEL=internlm/Intern-S2-Preview

请记得使用 --tool-call-parser interns2-preview 启动 LMDeploy，以确保工具调用被正确解析。

连接 Claude Code

LMDeploy 暴露了一个 Anthropic 兼容的 /v1/messages 端点，Claude Code 可以直接与之通信。将以下内容添加到 ~/.claude/settings.json：

{
  "env": {
    "ANTHROPIC_BASE_URL": "http://127.0.0.1:23333",
    "ANTHROPIC_AUTH_TOKEN": "dummy",
    "ANTHROPIC_MODEL": "internlm/Intern-S2-Preview",
    "ANTHROPIC_CUSTOM_MODEL_OPTION": "internlm/Intern-S2-Preview"
  }
}

完整的操作指南（curl 验证、模型路由、故障排除）请参见 LMDeploy × Claude Code。

2. 官方 Intern API

如果您不想自托管，可以使用官方 Intern API。在 internlm.intern-ai.org.cn 注册并创建一个 API token（sk-xxxxxxxx）。

连接 Agent 框架

该服务是 OpenAI 兼容的，因此任何 agent 框架都可以使用。您可以在 CLI 或配置文件中将 base url 设置为 https://chat.intern-ai.org.cn/api/v1，模型名称设置为 intern-s2-preview。

您可以使用以下命令检查连接：

curl https://chat.intern-ai.org.cn/api/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer sk-xxxxxxxx" \
  -d '{
    "model": "intern-s2-preview",
    "messages": [
      {"role": "user", "content": "Hello"}
    ],
    "temperature": 0.8,
    "top_p": 0.95
  }'

请参阅 Intern API 文档了解当前端点、可用模型名称、速率限制和高级参数。

连接 Claude Code

Claude Code 可以通过将 ANTHROPIC_BASE_URL 指向 Intern 的 Anthropic 兼容网关来路由到官方 Intern API：

{
  "env": {
    "ANTHROPIC_BASE_URL": "http://chat.staging.intern-ai.org.cn",
    "ANTHROPIC_AUTH_TOKEN": "your-api-token",
    "ANTHROPIC_MODEL": "intern-s2-preview",
    "ANTHROPIC_SMALL_FAST_MODEL": "intern-s2-preview"
  }
}

然后使用以下命令启动 claude code：

claude --model intern-s2-preview

有关分步设置，请参见 Intern API × Claude Code 集成。

译自 InternLM · HF · 上海 AI Lab · 录于二〇二六年六月六日