logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

CVPR 2025:长Prompt对齐问题也能评估了!当前最大AIGC评估数据集,模型评分超越当前SOTA

为了收集到接近真实场景下多样性的数据集,团队从三个大的维度出发构建了对应的prompt集,这三个大的维度可以被划分为实体生成(people,objects,animals,etc.),实体属性生成(clothing,color,material,etc.),交叉能力项(backrgound,spatialrelationship,etc.),通过对于不同维度数据的比例控制,确保了prompt数据的

#AIGC
两台苹果跑满血DeepSeek!512G大内存真AI PC来了

克雷西 发自 凹非寺量子位 | 公众号 QbitAI只要两台苹果Mac Studio,在家就能跑满血DeepSeek R1了?一家大模型工作室在推特上宣布,成功用两台搭载512GB M3 Ultra的Mac Studio,以20token每秒的速度成功运行8bit版R1。而且经过一波核算,用M3 Ultra来跑模型,每GB内存的成本还不到H100的6%。这家工作室就是EXO Labs,专门研究把大

#人工智能
不蒸馏R1也能超越DeepSeek,上海 AI Lab 用RL突破数学推理极限

书理 投稿自 凹非寺量子位 | 公众号 QbitAI仅通过强化学习,就能超越DeepSeek!上海AI Lab提出了基于结果奖励的强化学习新范式——从Qwen2.5-32B-Base模型出发,仅通过微调和基于结果反馈的强化学习,在不蒸馏超大模型如DeepSeek-R1的情况下,就能超越DeepSeek-R1-Distill-Qwen32B和OpenAI-O1系列的超强数学推理性能。团队发现,当前大

#人工智能
蒸馏任何深度,仅用少量无标签数据就能实现单目深度估计新SOTA

DAD团队 投稿量子位 | 公众号 QbiAI单目深度估计新成果来了!西湖大学AGI实验室等提出了一种创新性的蒸馏算法,成功整合了多个开源单目深度估计模型的优势。在仅使用2万张无标签数据的情况下,该方法显著提升了估计精度,并刷新了单目深度估计的最新SOTA性能。这一技术突破不仅提升了单目深度估计的鲁棒性,还大幅降低了对标注数据的依赖,使得该技术能够更容易地应用于数据匮乏的场景。此外,单目深度估计的

让ChatGPT调用10万+开源AI模型!HuggingFace新功能爆火:大模型可随取随用多模态AI工具...

萧箫 发自 凹非寺量子位 | 公众号 QbitAI只需和ChatGPT聊聊天,它就能帮你调用10万+个HuggingFace模型!这是抱抱脸最新上线的功能HuggingFace Transformers Agents,一经推出就获得极大关注:这个功能,相当于给ChatGPT等大模型配备了“多模态”能力——不限于文本,而是图像、语音、文档等任何多模态任务都能解决。例如告诉ChatGPT“解释这张图像

#人工智能#开源
AI读论文新神器:多栏密集文字、中英图文混排文档都能读的多模态大模型Fox|旷视...

Fox团队 投稿量子位 | 公众号 QbitAI虽然多模态大模型都能挑西瓜了,但理解复杂文档方面还是差点意思。面对文字密集、多栏混排等文档时往往力不从心,区域级别的细粒度理解,就更是无从谈起了。最近,旷视团队打造了一支多模态大模型的“点读笔”——Fox,轻松实现对8页文档(中英混合,单栏多栏格式混合的极端场景)的交互式感知理解。对于信息密集的PDF文档,Fox支持高可控性的细粒度理解,比如在用户感

#人工智能
2080 Ti就能跑70B大模型,上交大新框架让LLM推理增速11倍

上交大IPADS实验室 投稿量子位 | 公众号 QbitAI原本需要一张16万元的80G A100干的活,现在只需要一张不到2万元的24G 4090就够了!上海交大IPADS实验室推出的开源推理框架PowerInfer,让大模型推理速度加快了11倍。而且不用量化,就用FP16精度,也能让40B模型在个人电脑上运行;如果加入量化,2080 Ti也能流畅运行70B模型。结合大模型的独特特征,通过CPU

OCR终结了?旷视提出支持文档级OCR的多模态大模型,支持中英文,已开源!

国科大&旷视团队 投稿量子位 | 公众号 QbitAI想将一份文档图片转换成Markdown格式?以往这一任务需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个步骤——这一次,只需一句话命令,多模态大模型Vary直接端到端输出结果:无论是中英文的大段文字:还是包含了公式的文档图片:又或是手机页面截图:甚至可以将图片中的表格转换成latex格式:当然,作为多模大模型,通用能力的保持也

字节开源高精度文档解析大模型Dolphin:轻量高效,性能超GPT4.1、Mistral-OCR!

因为获取孤立的元素图像(例如表格、公式)及其标注比收集包含多种元素的完整文档页面更可行,Dolphin的元素解耦解析策略在数据收集方面提供了独特的优势。此外,凭借并行解析设计,Dolphin展示了显著的效率提升,达到了0.1729FPS,比最有效的基线(Mathpix,0.0944FPS)快近2倍。在公式识别方面,Dolphin在不同复杂度级别(SPE、SCE和CPE)上都展现出强大的能力,取得了

苹果芯跑大模型不用降计算精度,投机采样杀疯了,GPT-4也在用

梦晨 发自 凹非寺量子位 | 公众号 QbitAI专攻代码的Code Llama一出,大家伙都盼着谁来后续量化瘦身一下,好在本地也能运行。果然是llama.cpp作者Georgi Gerganov出手了,但他这回不按套路出牌:不量化,就用FP16精度也让34B的Code LLama跑在苹果电脑上,推理速度超过每秒20个token。原本需要4个高端GPU才能搞定的活现在用只有800GB/s带宽的M2

#人工智能#深度学习
    共 739 条
  • 1
  • 2
  • 3
  • 74
  • 请选择
OSZAR »