segment anything_Kun Li的博客

相关文章推荐

热情的黑框眼镜 · 中国农业大学农学院新闻动态 ...· 1 年前 ·

面冷心慈的绿茶 · 新造车抢人大战：200万年薪挖角，有团队被挖 ...· 1 年前 ·

坚强的打火机 · 2023年高性价比学生党手机，有哪些值得推荐 ...· 1 年前 ·

爽快的大蒜 · 奥本海默：中国取消存贷比可能会促进放贷|奥本 ...· 1 年前 ·

大方的稀饭 · 深渊行者原著,深渊行者漫画免费在线观看全集 ...· 1 年前 ·

clicks：点，box：框，everything：全图画点。

abstract：数据闭环，1100万张图，10亿mask。可以在一些新的数据分布和任务中直接zero-shot。

1.introduction

foundation models没在数据分布上训练也可以泛化，借助于prompt。本文的核心是构建了一个数据引擎，task，model，dataset。

task：给定prompt输出，prompt可以是文本或者空间上点，只要可以编码成向量就可以，点和框的坐标编码成向量。存在歧义涉及多个对象，输出也是这些对象中至少一个合理的mask。

model：image encoder（VIT），prompt encoder（任意的prompt，point，box，mask prompt一堆点，text prompt），mask decoder，从一个prompt中进行解码只需要50ms进行交互。

data engine：assisted-manual，semi-automatic，fully automatic。

dataset：1100万张图，10亿mask。

标注数据示例：

2.segment anything task

pre-training：vit->mae，text->clip.

3.segment anything model

Image encoder：MAE，ViT-H/16 with 14x14 windowed，16倍下采样，1024x1024降采样成64x64。

Prompt encoder：sparse points，boxes，text and dense masks。点和框通过positional encodings，text通过clip，masks使用卷积嵌入并与图像embeddings相加。变成256维向量。

mask decoder：mask decoder通过image embeddings，prompt embeddings，将oputput token映射到mask，修改了transformer decoder block，我们修改的decoder使用了prompt self-attention和cross-attention，其实就是在vit编码后的image embeddings中，使用通过编码后的embeddings去检索，最终得到mask。

self-attention是prompt之间的attention，明确各自要找的目标，cross-attention是每个token去image embeddings中去检索自己对应的区域。image embedding是256x64x64，token和image存在相互更新。2个decoder，第一个decoder是在64x64上，第二个decoder做了上采样4，是在256x256上做，prompt在第二个decoder时也加了position encoding。

efficiency：cpu上50ms。

体验下Meta最新的Segment Anything Meta计算机新模型实现“终极抠图”，segment-anything是趋势，但是牛逼吹的太大了，【AI绘画】破解Diffusion扩散模型，[小白向-深度学习装机指南] 01 双4090 涡轮版开箱启动 vlog（gpu burn，cpu burn），Segment Anything上线一天8.2k star，Segment Anything 图像分割 VS 清明上河图，计算机视觉（CV）方向就业情况分析，听说很卷？，我大抵是难毕业了，效果巨烂。

ChatGPT 引发了语言大模型狂潮，AI 另一个重大领域 —— 视觉 —— 的 GPT 时刻何时到来？前两天，介绍了 Meta 最新研究成果 Segment Anything Model (SAM)。该研究引起了AI社区广泛讨论。而据我们所知，几乎同一时间，智源研究院视觉团队也推出通用分割模型 SegGPT（ Segment Everything In Context）—— 利用视觉提示（prompt）完成任意分割任务的通用视觉模型。 SegGPT 与 Meta AI 图像分割 基础模型 SAM 同时发布，两者的差异在于： SegGPT “一通百通”：给出一个或几个示例图像和意图掩码，模型就能 get 用户意图，“有样学样” 地完成类似分割任务。用户在画面上标注识别一类物体，即可批量化识别分割同类物体，无论是在当前画面还是其他画面或视频环境中。 SAM “一触即通”：通过一个点或边界框，在待预测图片上给出交互提示，识别分割画面上的指定物体。无论是 “一触即通” 还是 “一通百通”，都意味着视觉模型已经 “理解” 了图像结构。SAM 精细标注能力与 SegGPT 的通用分

如何自定义 SAM 以在相册中自动分割您的宠物狗？在这个项目中，我们为 Segment Anything Model (SAM)提出了一种免训练的个性化方法，称为PerSAM。仅给定一张带有参考掩码的图像，PerSAM 无需任何训练即可在其他图像或视频中分割特定的视觉概念，例如您的宠物狗。为了获得更好的性能，我们进一步提出了一种高效的单次微调变体PerSAM-F。我们冻结了整个 SAM 并引入了两个可学习的掩码权重，它们仅在10 秒内训练了2 个参数。此外，我们的方法可用于帮助DreamBooth微调更好的稳定扩散以实现个性化图像合成。我们采用 PerSAM 对用户提供的少镜头图像中的目标对象进行分割，消除了背景干扰，有利于目标表示学习。

Meta 发布 SAM，零样本分割图像中一切对象。SAM 可以使用各种输入提示包括点击，框选和文字，指定要在图像中分割的内容，并且可以灵活集成其他系统。SAM 初步验证了多模态技术路径及其泛化能力，相当于计算机视觉领域的GPT-3。 SAM，零样本分割图像中一切对象 4 月 6 号，Meta 发布 Segment Anything Model（SAM），该模型可以用于分割图像中的一切对象，即使是训练数据中没有见过的对象。 SAM 可以使用各种输入提示包括点击，框选和文字，指定要在图像中分割的内容。对于不明确的提示，比如到底要分割出人穿的衣服还是整个人，SAM 会生成多个分割掩码。 SAM 可以灵活集成其他系统，比如将 AR/VR 头盔的用户视线作为提示来选择对象，也可以将分割输出用作其他 AI 系统的输入，用于 3D 建模等任务。 SAM 的模型结构设计高效灵活，先通过图像编码器为图像生成一次性编码，在用一个轻量级编码器将任何提示实时转换为编码。然后将这图像编码和提示编码两个信息源组合在一个轻量级解码器中，用于预测分割掩码。计算好图像编码后，每个提示只需要几毫秒就能在浏览器

- ADD: Delphi/CBuilder 10.2 Tokyo now supported. - ADD: Delphi/CBuilder 10.1 Berlin now supported. - ADD: Delphi/CBuilder 10 Seattle now supported. - ADD: Delphi/CBuilder XE8 now supported. - ADD: Delphi/CBuilder XE7 now supported. - ADD: Delphi/CBuilder XE6 now supported. - ADD: Delphi/CBuilder XE5 now supported. - ADD: Delphi/CBuilder XE4 now supported. - ADD: Delphi/CBuilder XE3 now supported. - ADD: Delphi/CBuilder XE2 now supported. - ADD: Delphi/CBuilder XE now supported. - ADD: Delphi/CBuilder 2010 now supported. - ADD: Delphi/CBuilder 2009 now supported. - ADD: New demo project FlexCADImport. - FIX: The height of the TFlexRegularPolygon object incorrectly changes with its rotation. - FIX: Added division by zero protect in method TFlexControl.MovePath Segment . - FIX: The background beyond docuemnt wasn't filled when TFlexPanel.DocClipping=True. - FIX: In "Windows ClearType" font rendering mode (OS Windows mode) the "garbage" pixels can appear from the right and from the bottom sides of the painted rectangle of the TFlexText object. - FIX: The result rectangle incorrectly calculated in the TFlexText.GetRefreshRect method. - FIX: Added FPaintCache.rcPaint cleanup in the TFlexPanel.WMPaint method. Now it is possible to define is the drawing take place via WMPaint or via the PaintTo direct call (if rcPaint contain non-empty rectangle then WMPaint in progress). - FIX: The TFlexPanel.FPaintCache field moved in the protected class section. Added rcPaint field in FPaintCache that represents drawing rectangle. - ADD: In the text prcise mode (TFlexText.Precise=True) takes into account the rotation angle (TFlexText.Angle). - FIX: Removed FG_NEWTEXTROTATE directive (the TFlexText Precise mode should be used instead). - FIX: The TFlexRegularPolygon object clones incorrectly drawed in case when TFlexRegularPolygon have alternative brush (gradient, texture). - ADD: Add TFlexPanel.InvalidateControl virtual method which calls from TFle

1)Meta Al 发布 SAM 模型并开源近日，Meta Al 在官网发布了基础模型 Segment Anything Model (SAM) 并开源，其本质是用 GPT 的方式(基于 Transform 模型架构)让计算机具备理解了图像里面的一个个“对象”的通用能力，有助于识别和确认图像中的不同物体，在自动驾驶 (检测其他汽车、行人和障碍物)、医学成像(提取特定结构或潜在病灶) 等应用中特别重要 2)昆仓万维宣布即将推出“天工”大模型 4月10 日，昆仑万维宣布，其和奇点智源合作自研、真正实现智能涌现的国产大语言模“天工”3.5发布在即，并将于 4月17 日启动邀请测试。此外，“天工”大模型型一已经非常接近 OpenAl ChatGPT 的智能水平。ChatGPT 是基于 GPT3.5 大模型，因此昆仑万维把此版本命名为“天工”3.5. 3)微软宣布开源 Deep Speed Chat4月12 日，微软宣布开源了 Deep Speed Chat，帮助用户轻松训练类 ChatGPT等大语言模型。Deep Speed Chat 是基于微软 Deep Speed 深度学习优化库开发而成

1、资源内容：基于PyQt5实现可视化自动标注工具可选择YOLOv5、YOLOv8、 Segment Anything或者自定义模型（完整源码+说明文档+数据）.rar 2、代码特点：参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 3、适用对象：计算机，电子信息工程、数学等专业的大学生课设大作业和毕业设计。 4、更多仿真源码和数据集下载列表（自行寻找自己需要的）：https://blog.csdn.net/m0_62143653?type=download 5、作者介绍：某大厂资深算法工程师，从事Matlab、 Python 、C/C++、Java、YOLO算法仿真工作10年；擅长计算机视觉、目标检测模型、智能优化算法、神经网络预测、信号处理、元胞自动机、图像处理、智能控制、路径规划、无人机等多种领域的算法仿真实验，欢迎交流学习。

FreeSurfer是一款用于脑结构分析的软件工具，它可以自动分割出大脑皮层和下层结构，并定量分析整个大脑组织的体积、表面形状和厚度等信息。这是通过对高质量MRI图像进行自动处理和分析来实现的。 FreeSurfer分割的过程分为三个主要步骤：重建、去噪和分割。在重建过程中，FreeSurfer使用T1加权结构磁共振图像进行重建，包括进行头骨去除、使用卷积神经网络进行面积和厚度计算等。在去噪的过程中，FreeSurfer会进行一系列的纠正和平滑操作，以减少由于图像噪声和在非完整数据的情况下出现的偏差。最后，FreeSurfer会对大脑皮层、纹状体、丘脑、海马体等进行分割，同时生成一系列的定量结果，例如体积、表面积、表面厚度、扭曲度和形态学特征等。 FreeSurfer不仅可以用于科学研究，还可以应用于神经疾病的诊断和治疗，例如帕金森病、阿尔茨海默病、自闭症和脑损伤等。此外，FreeSurfer还支持多种标准化处理和模板，例如Talairach和MNI空间坐标系，以及基于年龄的参考数据，以更好地适应各种人群的特征和变化。总之，FreeSurfer是一个高度自动化、准确、可靠的软件工具，可以对全脑的结构进行分割和分析，为神经科学研究和神经学临床实践提供了宝贵的工具。