词
历embedding
嵌入向量 · 文本 / 图像的数值表示
- 为1000万文档设计零幻觉RAG管道的10个关键步骤
- Modal C轮融资:以46.5亿美元估值募资3.55亿美元
- 在应用计算中扩展强化学习
- transformers v5.9.0
- vLLM 中的弹性专家并行
- 推出 Ettin Reranker 系列
- 使用 LoRA/DoRA 微调 NVIDIA Cosmos Predict 2.5 生成机器人视频
- VeRL-Omni 发布:扩散与全模态模型的简易、快速、稳定 RL 训练
- LLM架构最新进展:KV共享、mHC与压缩注意力
- 从Gemma 4到DeepSeek V4:LLM长上下文效率优化技术导览
- 评估前沿AI系统的早期经验
- vllm v0.21.0
- 结构化引出实验协议
- esengine/DeepSeek-Reasonix
- Granite Embedding Multilingual R2:Apache 2.0 开源多语言嵌入,32K 上下文 — 最佳 Sub-100M 检索质量
- Qwen3-TTS:低成本、高性能文本转语音
- vLLM 登顶 Artificial Analysis 排行榜
- MulTaBench:基于文本与图像的多模态表格学习基准测试
- GridSFM:一种新型小型电网基础模型
- 整合AI与AI原生企业 | Cohere
- 红队测试Anthropic内部Agent监控系统
- 参数高尔夫教给我们的AI辅助研究经验
- 开发者用22,000小时在Claude Code上构建个人AI操作系统并开源
- 中国AI实验室内部笔记
- vLLM 登顶 Artificial Analysis 排行榜
- 用 Amazon Nova 多模态嵌入实现制造智能
- open-multi-agent/open-multi-agent
- OncoAgent:用于隐私保护肿瘤学临床决策支持的双层 Multi-Agent 框架
- 自适应并行推理:高效推理扩展的下一范式
- Arthur-Ficial/apfel
- rohitg00/从零开始的 AI 工程
- 用于学习语义丰富视觉表征的文本条件 JEPA
- Gemini API 更新 Interactions steps 与 File Search 多模态检索
- SciCore-Mol
- autoresearch使nanochat的Time to GPT-2缩短11%
- EgoScale用2万小时人类第一视角视频训练灵巧手人形机器人
- Gemini Embedding 2 GA,支持五种模态统一嵌入
- Gemini API File Search 支持 PDF 与图像多模态 RAG
- APEX:面向 AI 生成音乐的大规模多任务美学感知流行度预测
- 重新思考推理密集型检索:评估并改进 Agentic 搜索系统中的检索器
- JackChen-me/open-multi-agent
- 用 MRC(Multipath Reliable Connection)解锁大规模 AI 训练网络
- TCDA:用于对话情感四元组分析的线程约束话语感知建模
- 持久视觉记忆:为 LVLMs 的深度生成维持感知
- 基于 Orbit-Space Particle Flow Matching 的生成式建模
- AnalogRetriever:学习用于模拟电路检索的跨模态表征
- LASE:用于印度语跨文字身份保持的语言对抗式说话人编码
- Qwen3.6-27B-FP8
- 现代 LLM 中 Attention 变体的可视化指南
- Qwen3.6-27B
- NVIDIA Nemotron 3 Nano Omni:面向文档、音频和视频 agent 的长上下文多模态智能
- DeepInfra 登陆 Hugging Face 推理服务提供商 🔥
- 介绍 OlmoEarth embeddings:从 OlmoEarth Studio 导出自定义 embedding 用于下游分析
- 用于高效运动学生成的长期运动嵌入学习
- 对agent网络进行红队测试:理解AI agent大规模交互时会出什么问题
- 我们如何构建多-agent研究系统
- 面向 AI agents 的有效 context engineering
- Claude Developer Platform 推出高级工具使用
- Claude Code auto 模式:更安全地跳过权限确认
- PSP:面向 Indic 文本转语音的可解释逐维度口音 benchmark
- RADIO-ViPE:面向动态环境中开放词汇语义 SLAM 的在线紧耦合多模态融合