Intern-S2-Preview
Intern-S2-Preview
Intern-S2-Preview 是一个 35B 参数的科学多模态基础模型,基于 Qwen3.5 继续预训练。它通过将数百个专业科学任务从预训练扩展到强化学习(RL)实现任务规模扩展,在多个专业科学任务上达到与万亿级 Intern-S1-Pro 相当的性能。该模型具备材料晶体结构生成能力,在科学 agent benchmark 上取得强劲结果,并采用带 KL 损失的共享权重 MTP 和 CoT 压缩技术提升 RL 推理效率。模型由 InternLM 团队开发,已在 GitHub 和 Hugging Face 发布。
Intern-S2-Preview
💻Github Repo • 🤗Model Collections • 💬Online Chat
引言
我们推出 Intern-S2-Preview,一个高效的 35B 科学多模态基础模型。除了传统的参数和数据规模扩展,Intern-S2-Preview 探索了任务规模扩展:通过增加科学任务的难度、多样性和覆盖范围,进一步释放模型能力。
通过将专业科学任务扩展到从预训练到强化学习的全链条训练流程,Intern-S2-Preview 在多个核心专业科学任务上达到了与万亿级 Intern-S1-Pro 相当的性能,而仅使用 35B 参数(基于 Qwen3.5 继续预训练)。同时,它保持了强大的通用推理、多模态理解和 agent 能力。
特性
全链条训练的科学任务规模扩展。 Intern-S2-Preview 将数百个专业科学任务从预训练扩展到 RL,在仅 35B 参数下实现了跨多个专业领域的强大性能。它进一步增强了小分子结构的空间建模,并引入了实值预测模块,成为首个同时具备材料晶体结构生成能力和强大通用能力的开源模型。
增强的科学工作流 agent 能力。 Intern-S2-Preview 相比上一代显著提升了 agent 能力,在多个科学 agent benchmark 上取得了强劲结果。
结合 MTP 和 CoT 压缩的高效 RL 推理。 在 RL 阶段,Intern-S2-Preview 采用带 KL 损失的共享权重 MTP,以减少训练与推理行为之间的不匹配,显著提高了 MTP 接受率和 token 生成速度。它还引入了 CoT 压缩技术,在保持强大推理能力的同时缩短响应长度,实现了性能和效率的双重提升。
性能
我们在多个 benchmark 上评估了 Intern-S2-Preview,包括通用数据集和科学数据集。以下报告了与近期 VLM 和 LLM 的性能对比。
性能对比
注意:下划线表示开源模型中的最佳性能,粗体表示所有模型中的最佳性能。
我们使用 OpenCompass 和 VLMEvalKit 评估所有模型。对于文本推理 benchmark,Intern-S2-Preview 的最大推理长度为 128K tokens;对于多模态 benchmark,最大推理长度为 64K tokens。
快速开始
采样参数
我们建议使用以下超参数以获得更佳效果
top_p = 0.95
top_k = 50
min_p = 0.0
temperature = 0.8
服务部署
Intern-S2-Preview 可以使用以下任意 LLM 推理框架进行部署:
- LMDeploy
- vLLM
- SGLang
这些框架的详细部署示例可在模型部署指南中找到。
高级用法
工具调用
工具调用让模型能够通过调用外部工具和 API 来扩展其能力。以下示例展示了如何通过兼容 OpenAI 的 API(基于 lmdeploy api server)获取最新天气预报。
from openai import OpenAI
import json
def get_current_temperature(location: str, unit: str = "celsius"):
"""获取某个地点的当前温度。
Args:
location: 要获取温度的地点,格式为"城市, 州, 国家"。
unit: 返回温度的单位。默认为"celsius"。(可选值:["celsius", "fahrenheit"])
Returns:
包含温度、地点和单位的字典
"""
return {
"temperature": 26.1,
"location": location,
"unit": unit,
}
def get_temperature_date(location: str, date: str, unit: str = "celsius"):
"""获取某个地点和日期的温度。
Args:
location: 要获取温度的地点,格式为"城市, 州, 国家"。
date: 要获取温度的日期,格式为"年-月-日"。
unit: 返回温度的单位。默认为"celsius"。(可选值:["celsius", "fahrenheit"])
Returns:
包含温度、地点、日期和单位的字典
"""
return {
"temperature": 25.9,
"location": location,
"date": date,
"unit": unit,
}
def get_function_by_name(name):
if name == "get_current_temperature":
return get_current_temperature
if name == "get_temperature_date":
return get_temperature_date
tools = [{
'type': 'function',
'function': {
'name': 'get_current_temperature',
'description': '获取某个地点的当前温度。',
'parameters': {
'type': 'object',
'properties': {
'location': {
'type': 'string',
'description': '要获取温度的地点,格式为\'城市, 州, 国家\'。'
},
'unit': {
'type': 'string',
'enum': [
'celsius',
'fahrenheit'
],
'description': '返回温度的单位。默认为\'celsius\'。'
}
},
'required': [
'location'
]
}
}
}, {
'type': 'function',
'function': {
'name': 'get_temperature_date',
'description': '获取某个地点和日期的温度。',
'parameters': {
'type': 'object',
'properties': {
'location': {
'type': 'string',
'description': '要获取温度的地点,格式为\'城市, 州, 国家\'。'
},
'date': {
'type': 'string',
'description': '要获取温度的日期,格式为\'年-月-日\'。'
},
'unit': {
'type': 'string',
'enum': [
'celsius',
'fahrenheit'
],
'description': '返回温度的单位。默认为\'celsius\'。'
}
},
'required': [
'location',
'date'
]
}
}
}]
messages = [
{'role': 'user', 'content': '今天是2024-11-14,旧金山现在的温度是多少?明天呢?'}
]
openai_api_key = "EMPTY"
openai_api_base = "http://0.0.0.0:23333/v1"
client = OpenAI(
api_key=openai_api_key,
base_url=openai_api_base,
)
model_name = client.models.list().data[0].id
response = client.chat.completions.create(
model=model_name,
messages=messages,
max_tokens=32768,
temperature=0.8,
top_p=0.95,
extra_body=dict(spaces_between_special_tokens=False),
tools=tools)
print(response.choices[0].message)
messages.append(response.choices[0].message)
for tool_call in response.choices[0].message.tool_calls:
tool_call_args = json.loads(tool_call.function.arguments)
tool_call_result = get_function_by_name(tool_call.function.name)(**tool_call_args)
tool_call_result = json.dumps(tool_call_result, ensure_ascii=False)
messages.append({
'role': 'tool',
'name': tool_call.function.name,
'content': tool_call_result,
'tool_call_id': tool_call.id
})
response = client.chat.completions.create(
model=model_name,
messages=messages,
temperature=0.8,
top_p=0.95,
extra_body=dict(spaces_between_special_tokens=False),
tools=tools)
print(response.choices[0].message)
在思考模式与非思考模式之间切换
Intern-S2-Preview 默认启用思考模式,以增强模型的推理能力,生成更高质量的响应。可以通过在 tokenizer.apply_chat_template 中设置 enable_thinking=False 来禁用此功能。
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True,
enable_thinking=False # 思考模式指示器
)
在服务 Intern-S2-Preview 模型时,可以通过在请求中调整 enable_thinking 参数来动态控制思考模式。
from openai import OpenAI
import json
messages = [
{
'role': 'user',
'content': '你是谁'
}, {
'role': 'assistant',
'content': '我是一个AI'
}, {
'role': 'user',
'content': 'AGI是什么?'
}]
openai_api_key = "EMPTY"
openai_api_base = "http://0.0.0.0:23333/v1"
client = OpenAI(
api_key=openai_api_key,
base_url=openai_api_base,
)
model_name = client.models.list().data[0].id
response = client.chat.completions.create(
model=model_name,
messages=messages,
temperature=0.8,
top_p=0.95,
max_tokens=2048,
extra_body={
"chat_template_kwargs": {"enable_thinking": False}
}
)
print(json.dumps(response.model_dump(), indent=2, ensure_ascii=False))
注意:我们不建议在 agent 任务中禁用思考模式。
Agent 集成
Intern-S2-Preview 可以通过两种方式接入 agent 框架:连接到自托管部署,或调用官方 InternLM API。下面我们介绍这两种方式,并提供 agent 框架(OpenClaw、Hermes 等)和 Claude Code 的示例。
1. 自托管部署(以 LMDeploy 为例)
首先,按照模型部署指南使用 LMDeploy 服务模型。以下示例假设服务器运行在 http://0.0.0.0:23333。
连接 Agent 框架
大多数 agent 框架(OpenClaw、Hermes 等)接受兼容 OpenAI 的端点。将它们指向 LMDeploy 服务器的 base url http://0.0.0.0:23333/v1。
您可以使用以下命令检查连接:
curl http://0.0.0.0:23333/v1/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer EMPTY" \
-d '{
"model": "internlm/Intern-S2-Preview",
"messages": [
{"role": "user", "content": "Hello"}
],
"temperature": 0.8,
"top_p": 0.95
}'
或者,您可以通过环境变量配置 agent 框架:
export OPENAI_API_KEY=EMPTY
export OPENAI_BASE_URL=http://0.0.0.0:23333/v1
export OPENAI_MODEL=internlm/Intern-S2-Preview
请记得使用 --tool-call-parser interns2-preview 启动 LMDeploy,以便正确解析工具调用。
连接 Claude Code
LMDeploy 暴露了一个兼容 Anthropic 的 /v1/messages 端点,Claude Code 可以直接与之通信。将以下内容添加到 ~/.claude/settings.json:
{
"env": {
"ANTHROPIC_BASE_URL": "http://127.0.0.1:23333",
"ANTHROPIC_AUTH_TOKEN": "dummy",
"ANTHROPIC_MODEL": "internlm/Intern-S2-Preview",
"ANTHROPIC_CUSTOM_MODEL_OPTION": "internlm/Intern-S2-Preview"
}
}
有关完整指南(curl 验证、模型路由、故障排除),请参阅 LMDeploy × Claude Code。
2. 官方 Intern API
如果您不想自托管,可以使用官方 Intern API。在 internlm.intern-ai.org.cn 注册并创建一个 API token(sk-xxxxxxxx)。
连接 Agent 框架
该服务兼容 OpenAI,因此任何 agent 框架都可以使用。您可以在 CLI 或配置文件中将 base url 设置为 https://chat.intern-ai.org.cn/api/v1,模型名称设置为 intern-s2-preview。
您可以使用以下命令检查连接:
curl https://chat.intern-ai.org.cn/api/v1/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer sk-xxxxxxxx" \
-d '{
"model": "intern-s2-preview",
"messages": [
{"role": "user", "content": "Hello"}
],
"temperature": 0.8,
"top_p": 0.95
}'
请参阅 Intern API 文档 了解当前端点、可用模型名称、速率限制和高级参数。
连接 Claude Code
Claude Code 可以通过将 ANTHROPIC_BASE_URL 指向 Intern 的 Anthropic 兼容网关来路由到官方 Intern API:
{
"env": {
"ANTHROPIC_BASE_URL": "http://chat.staging.intern-ai.org.cn",
"ANTHROPIC_AUTH_TOKEN": "your-api-token",
"ANTHROPIC_MODEL": "intern-s2-preview",
"ANTHROPIC_SMALL_FAST_MODEL": "intern-s2-preview"
}
}
然后使用以下命令启动 claude code:
claude --model intern-s2-preview
有关分步设置,请参阅 Intern API × Claude Code 集成。