
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
为了收集到接近真实场景下多样性的数据集,团队从三个大的维度出发构建了对应的prompt集,这三个大的维度可以被划分为实体生成(people,objects,animals,etc.),实体属性生成(clothing,color,material,etc.),交叉能力项(backrgound,spatialrelationship,etc.),通过对于不同维度数据的比例控制,确保了prompt数据的
克雷西 发自 凹非寺量子位 | 公众号 QbitAI只要两台苹果Mac Studio,在家就能跑满血DeepSeek R1了?一家大模型工作室在推特上宣布,成功用两台搭载512GB M3 Ultra的Mac Studio,以20token每秒的速度成功运行8bit版R1。而且经过一波核算,用M3 Ultra来跑模型,每GB内存的成本还不到H100的6%。这家工作室就是EXO Labs,专门研究把大
书理 投稿自 凹非寺量子位 | 公众号 QbitAI仅通过强化学习,就能超越DeepSeek!上海AI Lab提出了基于结果奖励的强化学习新范式——从Qwen2.5-32B-Base模型出发,仅通过微调和基于结果反馈的强化学习,在不蒸馏超大模型如DeepSeek-R1的情况下,就能超越DeepSeek-R1-Distill-Qwen32B和OpenAI-O1系列的超强数学推理性能。团队发现,当前大
DAD团队 投稿量子位 | 公众号 QbiAI单目深度估计新成果来了!西湖大学AGI实验室等提出了一种创新性的蒸馏算法,成功整合了多个开源单目深度估计模型的优势。在仅使用2万张无标签数据的情况下,该方法显著提升了估计精度,并刷新了单目深度估计的最新SOTA性能。这一技术突破不仅提升了单目深度估计的鲁棒性,还大幅降低了对标注数据的依赖,使得该技术能够更容易地应用于数据匮乏的场景。此外,单目深度估计的
萧箫 发自 凹非寺量子位 | 公众号 QbitAI只需和ChatGPT聊聊天,它就能帮你调用10万+个HuggingFace模型!这是抱抱脸最新上线的功能HuggingFace Transformers Agents,一经推出就获得极大关注:这个功能,相当于给ChatGPT等大模型配备了“多模态”能力——不限于文本,而是图像、语音、文档等任何多模态任务都能解决。例如告诉ChatGPT“解释这张图像
Fox团队 投稿量子位 | 公众号 QbitAI虽然多模态大模型都能挑西瓜了,但理解复杂文档方面还是差点意思。面对文字密集、多栏混排等文档时往往力不从心,区域级别的细粒度理解,就更是无从谈起了。最近,旷视团队打造了一支多模态大模型的“点读笔”——Fox,轻松实现对8页文档(中英混合,单栏多栏格式混合的极端场景)的交互式感知理解。对于信息密集的PDF文档,Fox支持高可控性的细粒度理解,比如在用户感
上交大IPADS实验室 投稿量子位 | 公众号 QbitAI原本需要一张16万元的80G A100干的活,现在只需要一张不到2万元的24G 4090就够了!上海交大IPADS实验室推出的开源推理框架PowerInfer,让大模型推理速度加快了11倍。而且不用量化,就用FP16精度,也能让40B模型在个人电脑上运行;如果加入量化,2080 Ti也能流畅运行70B模型。结合大模型的独特特征,通过CPU
国科大&旷视团队 投稿量子位 | 公众号 QbitAI想将一份文档图片转换成Markdown格式?以往这一任务需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个步骤——这一次,只需一句话命令,多模态大模型Vary直接端到端输出结果:无论是中英文的大段文字:还是包含了公式的文档图片:又或是手机页面截图:甚至可以将图片中的表格转换成latex格式:当然,作为多模大模型,通用能力的保持也
因为获取孤立的元素图像(例如表格、公式)及其标注比收集包含多种元素的完整文档页面更可行,Dolphin的元素解耦解析策略在数据收集方面提供了独特的优势。此外,凭借并行解析设计,Dolphin展示了显著的效率提升,达到了0.1729FPS,比最有效的基线(Mathpix,0.0944FPS)快近2倍。在公式识别方面,Dolphin在不同复杂度级别(SPE、SCE和CPE)上都展现出强大的能力,取得了
梦晨 发自 凹非寺量子位 | 公众号 QbitAI专攻代码的Code Llama一出,大家伙都盼着谁来后续量化瘦身一下,好在本地也能运行。果然是llama.cpp作者Georgi Gerganov出手了,但他这回不按套路出牌:不量化,就用FP16精度也让34B的Code LLama跑在苹果电脑上,推理速度超过每秒20个token。原本需要4个高端GPU才能搞定的活现在用只有800GB/s带宽的M2