为什么你的VLM是输出点的坐标,而不输出bbox呢,bbox按道理比点的坐标具有更多的图像信息吧咋回答的
点赞 评论

相关推荐

牛客网
牛客网在线编程
牛客网题解
牛客企业服务