免费搭建自己的DeepSeek满血版，稳定不限量，不再被服务器忙困扰

发表于 2025-02-25 分类于教程， AI ，模型部署

官方服务器常出现“繁忙”提示，很影响使用体验。

为了用DeepSeek-R1用得爽，今天，我将手把手教你如何利用火山方舟引擎和Cherry Studio，免费体验强大的DeepSeek模型！

新用户可享受免费50万Tokens的额度，助你零成本体验AI魅力。

参与入口：https://www.volcengine.com/experience/ark?utm_term=202502dsinvite&ac=DSASUQY5&rc=9ZVEJHSV 邀请码：9ZVEJHSV

具体操作步骤如下：

一、获取API和APIKey

1、访问并注册火山引擎

1.1 注册

通过链接注册火山引擎，还能得15元代金券（或者在邀请码栏填入邀请码：9ZVEJHSV）

1.2 进入火山方舟界面

来到了模型广场

找到DeepSeek-R1

点击立即体验

进入了体验界面

阅读全文 »

接近100%无损重建：开源文生视频领域的新突破

一、引言

在Sora出现之后，文/图生视频领域发展迅速，但开源文生视频模型效果与闭源模型存在差距，且开源模型进展缓慢。香港科技大学提出的一种新颖强大的视频自动编码器VAE有望改变这一局面。

二、视频VAE背景简介

潜在视频扩散模型（LVDM）已成为流行框架，成功应用于多个文生视频模型。视频VAE作为其关键组成部分备受关注，它可降低训练成本并提高生成视频质量。然而，早期采用图像VAE逐帧压缩视频存在时间闪烁、信息冗余问题，后续研究虽在改进，但当前视频VAE仍存在运动重影、模糊、卡顿等性能问题。

三、视频VAE算法简介

创新点
- 提出时间感知的空间压缩，更好编码和解码空间信息。
- 集成轻量级运动压缩模型进行时间压缩。
- 利用文生视频数据集中的文本信息，纳入文本指导，提高重建质量。
- 对图像和视频联合训练，提高模型通用性。
效果
- 重建算法重建出的视频肉眼难寻不一致之处，接近100%相似。

四、视频VAE算法应用场景

该算法在真实输入视频上重建效果出色，精准重建原始视频信息，为生成高质量视频奠定基础。

五、视频VAE算法整体流程

建模方式
- 同步建模：将预训练的2D空间VAE膨胀为3D VAE。
- 顺序建模：先压缩空间维度，再压缩时间信息。
- 新的VAE结合两者优点，受益于跨模态文本信息，实现更好视频重建质量。

六、视频VAE算法实现细节

时间感知的空间自编码器细节
- 将SD VAE的2D卷积扩展为3D卷积并附加时间卷积形成STBlock3D。
- 注入跨注意层，按输入块、下采样块、中间块、中间块、上采样块、输出块方式重建视频。
跨模态学习效果
- 纹理信息提高恢复视频细节能力，注意力图与输入文本提示对应。
图像与视频联合训练效果
- 联合训练进一步提高视频重建质量，在细节方面与原图更符合。

七、视频VAE环境搭建与运行

搭建算法运行环境
- 克隆代码到本地：git clone git@github.com:yzxing87/vae.git并进入目录。
- 创建虚拟环境：conda create --name vae python=3.10 -y并激活。
- 安装三方依赖库：pip install -r requirements.txt。
运行样例Demo
- 步骤1：根据需要下载预训练模型（https://github.com/VideoVerses/VideoVAEPlus）。
- 步骤2：构建视频或图片测试数据，分别在examples/videos/和examples/images/下按格式构建。
- 步骤3：运行视频或者图片重建，执行bash scripts/run_inference_video.sh或bash scripts/run_inference_image.sh。

八、视频VAE算法性能评估

主观效果性能评估
- 与多个SOTA基线方法（Open Sora Plan、Open Sora等）比较，该方法显著改善运动恢复，减少重影伪影。16通道模型进一步提高细节重建精度。
客观效果性能评估
- 在不同采样因子、通道和测试数据集上，该算法得分较高，证明其有效性。

香港科技大学提出的视频VAE在开源文生视频领域取得重大进展，其算法在多个方面表现出色，有望推动开源文生视频的发展。

基于小模型的自动化幻象检测智能体：HaluAgent

一、引言

在自然语言处理技术蓬勃发展的今天，大语言模型在众多生成自然语言文本任务中表现卓越，广泛应用于现实场景。然而，其存在的“幻象”问题，即生成看似合理实则错误的信息，严重制约了模型的可信度与实用性。传统幻象检测方法多依赖闭源大型语言模型（如GPT - 4），不仅计算成本高昂，且不利于技术的开放性和广泛应用。在此背景下，本文提出一种基于开源小模型的自动化幻象检测智能体——HaluAgent，旨在解决上述问题。

二、方法

（一）任务定义

将幻象检测任务定义为以下五种类型：

基于知识的问答：识别答案文本中的错误信息，如错误历史日期、错误归因引言或虚假科学事实。
条件文本生成：检测偏离输入要求或包含无关信息的幻象内容，如生成特定长度、格式文本或翻译任务。
语义一致性：判断响应中无关或自相矛盾的内容。
数学问题求解：检测数学表达式中的计算错误。
代码生成：识别语法不正确、执行异常、逻辑缺陷和缺失依赖的代码片段。
目标是开发通用灵活的智能体，处理多种幻象类型且不依赖闭源LLM。

（二）幻象检测工具箱

为增强开源小LLM的幻象检测能力，设计综合工具箱，包含以下工具：

搜索引擎（web_search）：利用Google可编程搜索引擎API，检索网络证据识别事实错误，仅取前5篇相关文档。
计算器（calculator）：通过SymPy实现，验证数学计算准确性。
代码解释器（code_interpreter）：在编程环境中执行代码片段验证正确性。
条件验证器：如用word_counter计算单词数量，检测条件文本生成任务中的幻象。
语义检查器（match）：检查语义一致性和相关性。
系统工具：包括文本分割（split_text）和返回检测结果（get_answer）。工具可根据任务场景扩展。

（三）HaluAgent框架

句子分割：利用split_text将LLM响应分割为独立检测单元，降低任务复杂性，减少干扰，确保细粒度检测结果。
工具选择与验证：根据句子内容选择合适工具验证，将检测结果存储为三元组（句子, 幻象标签, 支持证据），基于记忆机制存储信息。
反思：从局部和全局视角检查初步检测结果，局部匹配句子与证据，全局考虑句子间相互影响，纠正错误并更新检测结果，最后输出最终检测结果。

（四）双语智能体微调

轨迹生成
- 数据来源：选择HaluEval、WebQA、Ape210K、HumanEval、WordCnt五个数据集，涵盖多种幻象类型，具备双语检测能力。其中部分数据集利用GPT - 4合成或通过ChatGPT和人工标注获取幻象标签。
- 轨迹格式：利用GPT - 4执行HaluAgent框架检测流程，生成ReAct格式轨迹数据，经筛选后得到2017条高质量轨迹用于监督微调。
轨迹微调：对Baichuan2 - Chat 7B和13B进行监督微调，计算思路和行动的交叉熵损失，屏蔽观察部分。

三、实验

（一）实验设置

在域内（HaluEval - QA、WebQA、Ape210K、HumanEval、WordCnt）和域外（HalluQA、HaluEval 2.0）数据集评估HaluAgent，对比闭源模型（GPT - 4 prompt、GPT - 4 pipeline）和开源模型（Baichuan2 - Chat 7B和13B），利用FacTool数据集评估细粒度检测能力。

（二）实验结果

回复级检测：闭源与开源模型在基于内部知识的幻象检测性能上存在差距，引入工具和精细化框架可提升性能，轨迹微调使小型开源模型性能显著提升，缩小与闭源模型差距。
句子级检测：HaluAgent在句子级检测任务中F1分数更高，尤其在工具可精确判断的任务中，得益于框架设计和对检测结果的处理能力。
可扩展性研究：为微调模型引入新工具，HaluAgent对翻译器和日历工具使用率高，在相关任务中幻象检测成功率高，表明可有效使用新工具完成检测。
案例研究：对比不同检测方法，HaluAgent能自动化规划并选择合适工具，准确检测复杂文本中的混合幻象。

四、总结

本文提出的HaluAgent框架通过构建多功能工具箱、设计精细化三阶段检测框架、合成轨迹数据微调模型，在幻象检测方面表现出色。在域内和域外数据集上性能显著提升，与未使用工具增强的GPT - 4相当甚至更优，能为用户与LLM交互提供有效幻象检测服务，具有高度灵活性和适应性。

Anthropic：如何建立有效的Agent

发表于 2024-12-23 分类于技术分享， AI ， Agent

在过去的一年里，我们与数十个团队合作，构建了跨行业的大型语言模型（LLM）代理。一直以来，最成功的实现都没有使用复杂的框架或专门的库。相反，他们使用简单的、可组合的模式进行构建。

在这篇文章中，我们分享了我们从与客户和自己构建代理的工作中学到的东西，并为开发人员提供构建有效代理的实用建议。

什么是代理？

“Agent”可以用几种方法来定义。一些客户将代理定义为完全自主的系统，这些系统在较长的时间内独立运行，使用各种工具来完成复杂的任务。
其他人使用这个术语来描述遵循预定义工作流的更具规范性的实现。在Anthropic，我们将所有这些变化归类为智能体系统，但在工作流和智能体之间做出了重要的架构区分：

工作流是通过预定义的代码路径编排llm和工具的系统。
另一方面，代理是llm动态指导自己的过程和工具使用的系统，保持对它们如何完成任务的控制。
下面，我们将详细探讨这两种类型的智能体系统。在附录1（“实践中的代理”）中，我们描述了两个领域，客户在使用这些类型的系统时发现了特别的价值。

何时（何时不）使用代理

在使用llm构建应用程序时，我们建议找到尽可能简单的解决方案，并只在需要时增加复杂性。这可能意味着根本不需要建立智能体系统。智能体系统通常会权衡延迟和成本来获得更好的任务性能，您应该考虑这种权衡何时有意义。

当需要更多的复杂性时，工作流为定义良好的任务提供了可预测性和一致性，而当大规模需要灵活性和模型驱动决策时，代理是更好的选择。然而，对于许多应用程序来说，使用检索和上下文示例优化单个LLM调用通常就足够了。

何时以及如何使用框架

有许多框架可以使智能体系统更容易实现，包括：

基于LangChain的LangGraph；
Amazon Bedrock的AI Agent框架；
Rivet，一个拖放GUI LLM工作流构建器；和
Vellum，另一个用于构建和测试复杂工作流的GUI工具。

阅读全文 »

缩放定律

发表于 2024-12-04 分类于技术分享， AI ，理论研究

缩放定律概述

缩放定律是一种在不同领域中观察到的普遍现象，它描述了当某一个量（如规模、复杂度等）发生变化时，其他相关量如何相应地变化。缩放定律在多个领域中都有所体现，包括集成电路设计、机器学习和自然语言处理等。

Dennard缩放定律

Dennard缩放定律是集成电路领域的一个重要定律，它指出当晶体管的尺寸减小，其所消耗的电压和电流也会以相同的比例减小。这意味着晶体管的功耗密度在缩小的同时保持不变，从而使芯片的功耗与芯片面积成正比。这一定律在集成电路行业的发展中起到了关键作用，使得芯片性能得以持续提升。然而，随着晶体管尺寸的进一步缩小，量子隧穿效应开始介入，导致晶体管漏电现象出现，从而破坏了Dennard缩放定律的成立。

模型缩放定律

在机器学习领域，也有类似的缩放定律。研究发现，通过扩大模型规模可以提高深度学习模型的性能，但这种幂律缩放也带来了巨大的资源消耗。最近，MetaAI的研究人员发现了一种通过数据剪裁的方法，可以在规模更小的数据集上实现与大模型相当的性能。这种指数缩放的实现被认为是突破了传统的幂律缩放规则。

其他领域中的缩放定律

在其他领域中，如集成电路设计，还有摩尔定律和库梅定律等经验性定律，它们都与集成电路性能的提升有关。然而，随着物理实现的限制，这些定律在近年来已经不再完全奏效。

总结

缩放定律是一种描述系统中各量如何随某个关键量变化的规律。在不同的领域中，这些定律都对技术发展和性能提升起到了重要作用。然而，随着技术的进步和物理限制的显现，这些定律也在不断被挑战和更新。

Pinecone向量数据库使用方法

发表于 2024-12-03

1 建立索引

通过OpenAI 的 Embedding API 接口生成文本内容的embeddings
上传生成的embeddings道Pinecone

2 查询索引

通过OpenAI的Embedding API接口生成查询文字的embedding。
获取返回的向量结果，并将其作为查询条件发给Pinecone
查询语义相似的文档，即使他们不与查询的内容有相同的关键字

阅读全文 »

Win10+Ubuntu双系统安装方法

发表于 2024-12-03 分类于教程，系统安装，双系统

Win10+Ubuntu双系统安装方法

1 下载系统

下载所需的ubuntu系统。去官网下载需要的版本，我下载的是18.04版本的桌面系统。

2 安装前的准备

使用win+x键打开菜单，选择磁盘管理。

使用创建卷或者压缩卷创建一个略大于系统（Ubuntu系统）所需空间的存储空间。格式化为FTA32格式的。我压缩了5G，这个空间可以在系统安装完毕后删除。

在创建一个500MB的空间，格式化为FTA32的格式用来储存引导文件。
在准备一块空间，大小看自己的需要，因为我是打算用来学习大语言模型，因此，尽可能大大一点。主要要考虑交换空间，一般是内存的2倍。空间不进行任何操作，保持未添加状态，用来安装系统。

将刚刚下载的系统解压到5G的那个用于制作启动盘的硬盘中。

3 制作启动盘

下载easyUEFI并启动。

点击管理EFI启动项按钮进入下图界面。

阅读全文 »

CoT+Transformer解决计算问题

发表于 2024-11-14 分类于技术分享， AI ， Transformer

CoT+Transformer解决计算问题

优势

语言理解和生成能力

劣势

串行计算能力。
Transformer只擅长做哪些一步到位、并行处理的任务。

解决方案 - 思维链CoT

时间换空间

CoT 步数与模型表达能力之间存在有趣的关系：

对数级 CoT 步数不足以使模型超越 AC0。
多项式级 CoT 步数使得模型可以计算 P/poly 类中的所有电路。
线性级 CoT 步数则使模型能够计算所有正则语言。

未来基于CoT的研究方向

1. 自适应 CoT

想象一个能根据问题复杂度自动调整思维链长度的 AI 系统。简单问题快速解决，复杂问题细细推敲。

2. 多模态 CoT

将 CoT 方法扩展到图像、音频等多模态任务中。AI 不仅能解释文字，还能一步步分析图片、视频中的复杂场景。

3. 协作式 CoT

多个 AI 系统协同工作，每个系统负责思维链中的不同部分，共同解决超大规模的复杂问题。

4. 可编辑 CoT

允许人类专家干预和修改 AI 的推理过程，创造人机协作的新模式。

挑战

生成和处理长链推理需要大量计算资源，这在某些实时应用场景中可能成为瓶颈。

此外，如何确保每一步推理都是正确的，避免错误传播和放大，也是需要解决的问题

初识“迟分（Late Chunking）”策略

发表于 2024-11-13 分类于技术分享， RAG ， Embedding

RAG系统中，文本分割的策略严重的影响着内容的召回效果。例如：以维基百科上的一篇关于柏林的文章为例，若将其分割为句子块，不难发现诸如“其”和“这座城市”等指代表达，实际上指向的是文章开头提到的“柏林”。

传统模式局限性

主要依赖于预定义的规则来识别文本中的边界，比如句号、逗号、分号等标点符号。这种基于规则的方法在处理简单、结构清晰的文本时效果还不错，但面对复杂、多样化的文本类型时就显得力不从心了。
应对自然语言中的多义性和上下文依赖性方面表现不佳。
对文本的语法和结构过于依赖，忽视了语义层面的理解。在一些复杂的文本中，句子的逻辑结构和语义关系可能比单纯的标点符号更重要。RAG策略往往无法识别这些深层次的语义关联，从而影响文本分割的准确性和连贯性。

迟分策略的优势

“迟分”策略，则是先过 Embedding 模型再分块，我们先将 Embedding 模型的 transformer 层应用到整个文本或尽可能多的连续文本，为每个 token 生成一个包含丰富上下文信息的向量表示序列。随后，再对这些 token 向量序列进行平均池化，进而得到考虑了整个文本上下文的块 Embedding。

迟分生成的块 Embedding 是“有条件的”，这意味着每个块都编码了更多的上下文信息，从而大大提升了编码的质量和准确性。

参考文献

https://mp.weixin.qq.com/s/JOS-4FGYAL7ydUfhJDH6uQ

【Agent学习】吴恩达的Agent4种推理设计模式

发表于 2024-11-13 分类于技术分享， AI ， Agent

前言

代理工作流(Agentic Workflow)是与大型语言模型(LLM)交互和完成任务的一种新方法。

传统上
传统上,我们与LLM交互时，会直接输入一个提示(prompt),LLM然后会基于这个提示直接生成一个输出结果。这种做法有点像让一个人一次性从头到尾写出一篇文章,没有反复修改和迭代的机会。
代理工作流
代理工作流则更像是将写作过程分解为多个步骤：首先是根据主题大纲写一个草稿，然后是对草稿进行分析、修改和补充，之后是进一步完善和润色,如此反复迭代,直到最终生成期望的结果。
作用
测试任务是:”给定一个非空整数列表,返回所有偶数位置元素的和”。使用零示例提示方法,也就是直接让AI生成解决方案代码，GPT-3.5的正确率仅为48%,GPT-4的正确率为67%，表现都相对一般。
但是，当采用代理工作流程，将任务分解为分析问题、迭代编写代码、测试和调试等多个步骤时，GPT-3.5的表现甚至超过了GPT-4使用零示例提示的正确率。Ng指出,在GPT-4模型上应用代理工作流程,也同样取得了非常出色的结果。

概述

Reflection：让 Agent 审视和修正自己生成的输出；
Tool Use：LLM 生成代码、调用 API 等进行实际操作；
Planning：让 Agent 分解复杂任务并按计划执行；
Multiagent Collaboration：多个 Agent 扮演不同角色合作完成任务；

阅读全文 »