QbitAl 个人主页

@QbitAI

QbitAl

2022-06-08 23:22:49 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

CVPR 2025：长Prompt对齐问题也能评估了！当前最大AIGC评估数据集，模型评分超越当前SOTA

为了收集到接近真实场景下多样性的数据集，团队从三个大的维度出发构建了对应的prompt集，这三个大的维度可以被划分为实体生成（people，objects,animals,etc.），实体属性生成（clothing,color,material,etc.），交叉能力项（backrgound，spatialrelationship,etc.），通过对于不同维度数据的比例控制，确保了prompt数据的

#AIGC

两台苹果跑满血DeepSeek！512G大内存真AI PC来了

克雷西发自凹非寺量子位 | 公众号 QbitAI只要两台苹果Mac Studio，在家就能跑满血DeepSeek R1了？一家大模型工作室在推特上宣布，成功用两台搭载512GB M3 Ultra的Mac Studio，以20token每秒的速度成功运行8bit版R1。而且经过一波核算，用M3 Ultra来跑模型，每GB内存的成本还不到H100的6%。这家工作室就是EXO Labs，专门研究把大

#人工智能

不蒸馏R1也能超越DeepSeek，上海 AI Lab 用RL突破数学推理极限

书理投稿自凹非寺量子位 | 公众号 QbitAI仅通过强化学习，就能超越DeepSeek！上海AI Lab提出了基于结果奖励的强化学习新范式——从Qwen2.5-32B-Base模型出发，仅通过微调和基于结果反馈的强化学习，在不蒸馏超大模型如DeepSeek-R1的情况下，就能超越DeepSeek-R1-Distill-Qwen32B和OpenAI-O1系列的超强数学推理性能。团队发现，当前大

#人工智能

蒸馏任何深度，仅用少量无标签数据就能实现单目深度估计新SOTA

DAD团队投稿量子位 | 公众号 QbiAI单目深度估计新成果来了！西湖大学AGI实验室等提出了一种创新性的蒸馏算法，成功整合了多个开源单目深度估计模型的优势。在仅使用2万张无标签数据的情况下，该方法显著提升了估计精度，并刷新了单目深度估计的最新SOTA性能。这一技术突破不仅提升了单目深度估计的鲁棒性，还大幅降低了对标注数据的依赖，使得该技术能够更容易地应用于数据匮乏的场景。此外，单目深度估计的

让ChatGPT调用10万+开源AI模型！HuggingFace新功能爆火：大模型可随取随用多模态AI工具...

萧箫发自凹非寺量子位 | 公众号 QbitAI只需和ChatGPT聊聊天，它就能帮你调用10万+个HuggingFace模型！这是抱抱脸最新上线的功能HuggingFace Transformers Agents，一经推出就获得极大关注：这个功能，相当于给ChatGPT等大模型配备了“多模态”能力——不限于文本，而是图像、语音、文档等任何多模态任务都能解决。例如告诉ChatGPT“解释这张图像

#人工智能 #开源

AI读论文新神器：多栏密集文字、中英图文混排文档都能读的多模态大模型Fox｜旷视...

Fox团队投稿量子位 | 公众号 QbitAI虽然多模态大模型都能挑西瓜了，但理解复杂文档方面还是差点意思。面对文字密集、多栏混排等文档时往往力不从心，区域级别的细粒度理解，就更是无从谈起了。最近，旷视团队打造了一支多模态大模型的“点读笔”——Fox，轻松实现对8页文档（中英混合，单栏多栏格式混合的极端场景）的交互式感知理解。对于信息密集的PDF文档，Fox支持高可控性的细粒度理解，比如在用户感

#人工智能

2080 Ti就能跑70B大模型，上交大新框架让LLM推理增速11倍

上交大IPADS实验室投稿量子位 | 公众号 QbitAI原本需要一张16万元的80G A100干的活，现在只需要一张不到2万元的24G 4090就够了！上海交大IPADS实验室推出的开源推理框架PowerInfer，让大模型推理速度加快了11倍。而且不用量化，就用FP16精度，也能让40B模型在个人电脑上运行；如果加入量化，2080 Ti也能流畅运行70B模型。结合大模型的独特特征，通过CPU

OCR终结了？旷视提出支持文档级OCR的多模态大模型，支持中英文，已开源！

国科大&旷视团队投稿量子位 | 公众号 QbitAI想将一份文档图片转换成Markdown格式？以往这一任务需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个步骤——这一次，只需一句话命令，多模态大模型Vary直接端到端输出结果：无论是中英文的大段文字：还是包含了公式的文档图片：又或是手机页面截图：甚至可以将图片中的表格转换成latex格式：当然，作为多模大模型，通用能力的保持也

字节开源高精度文档解析大模型Dolphin：轻量高效，性能超GPT4.1、Mistral-OCR！

因为获取孤立的元素图像（例如表格、公式）及其标注比收集包含多种元素的完整文档页面更可行，Dolphin的元素解耦解析策略在数据收集方面提供了独特的优势。此外，凭借并行解析设计，Dolphin展示了显著的效率提升，达到了0.1729FPS，比最有效的基线（Mathpix，0.0944FPS）快近2倍。在公式识别方面，Dolphin在不同复杂度级别（SPE、SCE和CPE）上都展现出强大的能力，取得了

苹果芯跑大模型不用降计算精度，投机采样杀疯了，GPT-4也在用

梦晨发自凹非寺量子位 | 公众号 QbitAI专攻代码的Code Llama一出，大家伙都盼着谁来后续量化瘦身一下，好在本地也能运行。果然是llama.cpp作者Georgi Gerganov出手了，但他这回不按套路出牌：不量化，就用FP16精度也让34B的Code LLama跑在苹果电脑上，推理速度超过每秒20个token。原本需要4个高端GPU才能搞定的活现在用只有800GB/s带宽的M2

#人工智能 #深度学习

共 739 条

请选择