I创派

探求真实的AI,学习AI,使用AI,创造AI

官方服务器常出现“繁忙”提示,很影响使用体验。

为了用DeepSeek-R1用得爽,今天,我将手把手教你如何利用火山方舟引擎和Cherry Studio,免费体验强大的DeepSeek模型!

新用户可享受免费50万Tokens的额度,助你零成本体验AI魅力。

参与入口:https://www.volcengine.com/experience/ark?utm_term=202502dsinvite&ac=DSASUQY5&rc=9ZVEJHSV 邀请码:9ZVEJHSV

具体操作步骤如下:

一、获取API和APIKey

1、访问并注册火山引擎

1.1 注册

通过链接注册火山引擎,还能得15元代金券(或者在邀请码栏填入邀请码:9ZVEJHSV

1.2 进入火山方舟界面

来到了模型广场

找到DeepSeek-R1

点击立即体验

进入了体验界面

阅读全文 »

接近100%无损重建:开源文生视频领域的新突破

一、引言

在Sora出现之后,文/图生视频领域发展迅速,但开源文生视频模型效果与闭源模型存在差距,且开源模型进展缓慢。香港科技大学提出的一种新颖强大的视频自动编码器VAE有望改变这一局面。

二、视频VAE背景简介

潜在视频扩散模型(LVDM)已成为流行框架,成功应用于多个文生视频模型。视频VAE作为其关键组成部分备受关注,它可降低训练成本并提高生成视频质量。然而,早期采用图像VAE逐帧压缩视频存在时间闪烁、信息冗余问题,后续研究虽在改进,但当前视频VAE仍存在运动重影、模糊、卡顿等性能问题。

三、视频VAE算法简介

  1. 创新点
    • 提出时间感知的空间压缩,更好编码和解码空间信息。
    • 集成轻量级运动压缩模型进行时间压缩。
    • 利用文生视频数据集中的文本信息,纳入文本指导,提高重建质量。
    • 对图像和视频联合训练,提高模型通用性。
  2. 效果
    • 重建算法重建出的视频肉眼难寻不一致之处,接近100%相似。

四、视频VAE算法应用场景

该算法在真实输入视频上重建效果出色,精准重建原始视频信息,为生成高质量视频奠定基础。

五、视频VAE算法整体流程

  1. 建模方式
    • 同步建模:将预训练的2D空间VAE膨胀为3D VAE。
    • 顺序建模:先压缩空间维度,再压缩时间信息。
    • 新的VAE结合两者优点,受益于跨模态文本信息,实现更好视频重建质量。

六、视频VAE算法实现细节

  1. 时间感知的空间自编码器细节
    • 将SD VAE的2D卷积扩展为3D卷积并附加时间卷积形成STBlock3D。
    • 注入跨注意层,按输入块、下采样块、中间块、中间块、上采样块、输出块方式重建视频。
  2. 跨模态学习效果
    • 纹理信息提高恢复视频细节能力,注意力图与输入文本提示对应。
  3. 图像与视频联合训练效果
    • 联合训练进一步提高视频重建质量,在细节方面与原图更符合。

七、视频VAE环境搭建与运行

  1. 搭建算法运行环境
    • 克隆代码到本地:git clone git@github.com:yzxing87/vae.git并进入目录。
    • 创建虚拟环境:conda create --name vae python=3.10 -y并激活。
    • 安装三方依赖库:pip install -r requirements.txt
  2. 运行样例Demo
    • 步骤1:根据需要下载预训练模型(https://github.com/VideoVerses/VideoVAEPlus)。
    • 步骤2:构建视频或图片测试数据,分别在examples/videos/examples/images/下按格式构建。
    • 步骤3:运行视频或者图片重建,执行bash scripts/run_inference_video.shbash scripts/run_inference_image.sh

八、视频VAE算法性能评估

  1. 主观效果性能评估
    • 与多个SOTA基线方法(Open Sora Plan、Open Sora等)比较,该方法显著改善运动恢复,减少重影伪影。16通道模型进一步提高细节重建精度。
  2. 客观效果性能评估
    • 在不同采样因子、通道和测试数据集上,该算法得分较高,证明其有效性。

香港科技大学提出的视频VAE在开源文生视频领域取得重大进展,其算法在多个方面表现出色,有望推动开源文生视频的发展。

基于小模型的自动化幻象检测智能体:HaluAgent

一、引言

在自然语言处理技术蓬勃发展的今天,大语言模型在众多生成自然语言文本任务中表现卓越,广泛应用于现实场景。然而,其存在的“幻象”问题,即生成看似合理实则错误的信息,严重制约了模型的可信度与实用性。传统幻象检测方法多依赖闭源大型语言模型(如GPT - 4),不仅计算成本高昂,且不利于技术的开放性和广泛应用。在此背景下,本文提出一种基于开源小模型的自动化幻象检测智能体——HaluAgent,旨在解决上述问题。

二、方法

(一)任务定义

将幻象检测任务定义为以下五种类型:

  1. 基于知识的问答:识别答案文本中的错误信息,如错误历史日期、错误归因引言或虚假科学事实。
  2. 条件文本生成:检测偏离输入要求或包含无关信息的幻象内容,如生成特定长度、格式文本或翻译任务。
  3. 语义一致性:判断响应中无关或自相矛盾的内容。
  4. 数学问题求解:检测数学表达式中的计算错误。
  5. 代码生成:识别语法不正确、执行异常、逻辑缺陷和缺失依赖的代码片段。
    目标是开发通用灵活的智能体,处理多种幻象类型且不依赖闭源LLM。

(二)幻象检测工具箱

为增强开源小LLM的幻象检测能力,设计综合工具箱,包含以下工具:

  1. 搜索引擎(web_search):利用Google可编程搜索引擎API,检索网络证据识别事实错误,仅取前5篇相关文档。
  2. 计算器(calculator):通过SymPy实现,验证数学计算准确性。
  3. 代码解释器(code_interpreter):在编程环境中执行代码片段验证正确性。
  4. 条件验证器:如用word_counter计算单词数量,检测条件文本生成任务中的幻象。
  5. 语义检查器(match):检查语义一致性和相关性。
  6. 系统工具:包括文本分割(split_text)和返回检测结果(get_answer)。工具可根据任务场景扩展。

(三)HaluAgent框架

  1. 句子分割:利用split_text将LLM响应分割为独立检测单元,降低任务复杂性,减少干扰,确保细粒度检测结果。
  2. 工具选择与验证:根据句子内容选择合适工具验证,将检测结果存储为三元组(句子, 幻象标签, 支持证据),基于记忆机制存储信息。
  3. 反思:从局部和全局视角检查初步检测结果,局部匹配句子与证据,全局考虑句子间相互影响,纠正错误并更新检测结果,最后输出最终检测结果。

(四)双语智能体微调

  1. 轨迹生成
    • 数据来源:选择HaluEval、WebQA、Ape210K、HumanEval、WordCnt五个数据集,涵盖多种幻象类型,具备双语检测能力。其中部分数据集利用GPT - 4合成或通过ChatGPT和人工标注获取幻象标签。
    • 轨迹格式:利用GPT - 4执行HaluAgent框架检测流程,生成ReAct格式轨迹数据,经筛选后得到2017条高质量轨迹用于监督微调。
  2. 轨迹微调:对Baichuan2 - Chat 7B和13B进行监督微调,计算思路和行动的交叉熵损失,屏蔽观察部分。

三、实验

(一)实验设置

在域内(HaluEval - QA、WebQA、Ape210K、HumanEval、WordCnt)和域外(HalluQA、HaluEval 2.0)数据集评估HaluAgent,对比闭源模型(GPT - 4 prompt、GPT - 4 pipeline)和开源模型(Baichuan2 - Chat 7B和13B),利用FacTool数据集评估细粒度检测能力。

(二)实验结果

  1. 回复级检测:闭源与开源模型在基于内部知识的幻象检测性能上存在差距,引入工具和精细化框架可提升性能,轨迹微调使小型开源模型性能显著提升,缩小与闭源模型差距。
  2. 句子级检测:HaluAgent在句子级检测任务中F1分数更高,尤其在工具可精确判断的任务中,得益于框架设计和对检测结果的处理能力。
  3. 可扩展性研究:为微调模型引入新工具,HaluAgent对翻译器和日历工具使用率高,在相关任务中幻象检测成功率高,表明可有效使用新工具完成检测。
  4. 案例研究:对比不同检测方法,HaluAgent能自动化规划并选择合适工具,准确检测复杂文本中的混合幻象。

四、总结

本文提出的HaluAgent框架通过构建多功能工具箱、设计精细化三阶段检测框架、合成轨迹数据微调模型,在幻象检测方面表现出色。在域内和域外数据集上性能显著提升,与未使用工具增强的GPT - 4相当甚至更优,能为用户与LLM交互提供有效幻象检测服务,具有高度灵活性和适应性。

在过去的一年里,我们与数十个团队合作,构建了跨行业的大型语言模型(LLM)代理。一直以来,最成功的实现都没有使用复杂的框架或专门的库。相反,他们使用简单的、可组合的模式进行构建。

在这篇文章中,我们分享了我们从与客户和自己构建代理的工作中学到的东西,并为开发人员提供构建有效代理的实用建议。

什么是代理?

“Agent”可以用几种方法来定义。一些客户将代理定义为完全自主的系统,这些系统在较长的时间内独立运行,使用各种工具来完成复杂的任务。
其他人使用这个术语来描述遵循预定义工作流的更具规范性的实现。在Anthropic,我们将所有这些变化归类为智能体系统,但在工作流和智能体之间做出了重要的架构区分:

工作流是通过预定义的代码路径编排llm和工具的系统。
另一方面,代理是llm动态指导自己的过程和工具使用的系统,保持对它们如何完成任务的控制。
下面,我们将详细探讨这两种类型的智能体系统。在附录1(“实践中的代理”)中,我们描述了两个领域,客户在使用这些类型的系统时发现了特别的价值。

何时(何时不)使用代理

在使用llm构建应用程序时,我们建议找到尽可能简单的解决方案,并只在需要时增加复杂性。这可能意味着根本不需要建立智能体系统。智能体系统通常会权衡延迟和成本来获得更好的任务性能,您应该考虑这种权衡何时有意义。

当需要更多的复杂性时,工作流为定义良好的任务提供了可预测性和一致性,而当大规模需要灵活性和模型驱动决策时,代理是更好的选择。然而,对于许多应用程序来说,使用检索和上下文示例优化单个LLM调用通常就足够了。

何时以及如何使用框架

有许多框架可以使智能体系统更容易实现,包括:

  • 基于LangChain的LangGraph;
  • Amazon Bedrock的AI Agent框架;
  • Rivet,一个拖放GUI LLM工作流构建器;和
  • Vellum,另一个用于构建和测试复杂工作流的GUI工具。
阅读全文 »

缩放定律概述

缩放定律是一种在不同领域中观察到的普遍现象,它描述了当某一个量(如规模、复杂度等)发生变化时,其他相关量如何相应地变化。缩放定律在多个领域中都有所体现,包括集成电路设计、机器学习和自然语言处理等。

Dennard缩放定律

Dennard缩放定律是集成电路领域的一个重要定律,它指出当晶体管的尺寸减小,其所消耗的电压和电流也会以相同的比例减小。这意味着晶体管的功耗密度在缩小的同时保持不变,从而使芯片的功耗与芯片面积成正比。这一定律在集成电路行业的发展中起到了关键作用,使得芯片性能得以持续提升。然而,随着晶体管尺寸的进一步缩小,量子隧穿效应开始介入,导致晶体管漏电现象出现,从而破坏了Dennard缩放定律的成立

模型缩放定律

机器学习领域,也有类似的缩放定律。研究发现,通过扩大模型规模可以提高深度学习模型的性能,但这种幂律缩放也带来了巨大的资源消耗。最近,MetaAI的研究人员发现了一种通过数据剪裁的方法,可以在规模更小的数据集上实现与大模型相当的性能。这种指数缩放的实现被认为是突破了传统的幂律缩放规则。

其他领域中的缩放定律

在其他领域中,如集成电路设计,还有摩尔定律和库梅定律等经验性定律,它们都与集成电路性能的提升有关。然而,随着物理实现的限制,这些定律在近年来已经不再完全奏效。

总结

缩放定律是一种描述系统中各量如何随某个关键量变化的规律。在不同的领域中,这些定律都对技术发展和性能提升起到了重要作用。然而,随着技术的进步和物理限制的显现,这些定律也在不断被挑战和更新。

1 建立索引

  1. 通过OpenAI 的 Embedding API 接口生成文本内容的embeddings
  2. 上传生成的embeddings道Pinecone

2 查询索引

  1. 通过OpenAI的Embedding API接口生成查询文字的embedding。
  2. 获取返回的向量结果,并将其作为查询条件发给Pinecone
  3. 查询语义相似的文档,即使他们不与查询的内容有相同的关键字

image.png

阅读全文 »

Win10+Ubuntu双系统安装方法

1 下载系统

下载所需的ubuntu系统。去官网下载需要的版本,我下载的是18.04版本的桌面系统。

2 安装前的准备

使用win+x键打开菜单,选择磁盘管理。

使用创建卷或者压缩卷创建一个略大于系统(Ubuntu系统)所需空间的存储空间。格式化为FTA32格式的。我压缩了5G,这个空间可以在系统安装完毕后删除。

在创建一个500MB的空间,格式化为FTA32的格式用来储存引导文件。
在准备一块空间,大小看自己的需要,因为我是打算用来学习大语言模型,因此,尽可能大大一点。主要要考虑交换空间,一般是内存的2倍。空间不进行任何操作,保持未添加状态,用来安装系统。

将刚刚下载的系统解压到5G的那个用于制作启动盘的硬盘中。

3 制作启动盘

下载easyUEFI并启动。

image.png

点击管理EFI启动项按钮进入下图界面。

阅读全文 »

CoT+Transformer解决计算问题

优势

  • 语言理解和生成能力

劣势

  • 串行计算能力。
  • Transformer只擅长做哪些一步到位、并行处理的任务。

解决方案 - 思维链CoT

时间换空间

CoT 步数与模型表达能力之间存在有趣的关系:

  1. 对数级 CoT 步数不足以使模型超越 AC0。
  2. 多项式级 CoT 步数使得模型可以计算 P/poly 类中的所有电路。
  3. 线性级 CoT 步数则使模型能够计算所有正则语言。

未来基于CoT的研究方向

1. 自适应 CoT

想象一个能根据问题复杂度自动调整思维链长度的 AI 系统。简单问题快速解决,复杂问题细细推敲。

2. 多模态 CoT

将 CoT 方法扩展到图像、音频等多模态任务中。AI 不仅能解释文字,还能一步步分析图片、视频中的复杂场景。

3. 协作式 CoT

多个 AI 系统协同工作,每个系统负责思维链中的不同部分,共同解决超大规模的复杂问题。

4. 可编辑 CoT

允许人类专家干预和修改 AI 的推理过程,创造人机协作的新模式。

挑战

生成和处理长链推理需要大量计算资源,这在某些实时应用场景中可能成为瓶颈。

此外,如何确保每一步推理都是正确的,避免错误传播和放大,也是需要解决的问题

RAG系统中,文本分割的策略严重的影响着内容的召回效果。例如:以维基百科上的一篇关于柏林的文章为例,若将其分割为句子块,不难发现诸如“其”和“这座城市”等指代表达,实际上指向的是文章开头提到的“柏林”。

传统模式局限性

  • 主要依赖于预定义的规则来识别文本中的边界,比如句号、逗号、分号等标点符号。这种基于规则的方法在处理简单、结构清晰的文本时效果还不错,但面对复杂、多样化的文本类型时就显得力不从心了。
  • 应对自然语言中的多义性和上下文依赖性方面表现不佳。
  • 对文本的语法和结构过于依赖,忽视了语义层面的理解。在一些复杂的文本中,句子的逻辑结构和语义关系可能比单纯的标点符号更重要。RAG策略往往无法识别这些深层次的语义关联,从而影响文本分割的准确性和连贯性。

迟分策略的优势

“迟分”策略,则是先过 Embedding 模型再分块,我们先将 Embedding 模型的 transformer 层应用到整个文本或尽可能多的连续文本,为每个 token 生成一个包含丰富上下文信息的向量表示序列。随后,再对这些 token 向量序列进行平均池化,进而得到考虑了整个文本上下文的块 Embedding。

迟分生成的块 Embedding 是“有条件的”,这意味着每个块都编码了更多的上下文信息,从而大大提升了编码的质量和准确性。

image.png

1724670862445.png

参考文献

  • https://mp.weixin.qq.com/s/JOS-4FGYAL7ydUfhJDH6uQ

前言

代理工作流(Agentic Workflow)是与大型语言模型(LLM)交互和完成任务的一种新方法。
image.png
传统上
传统上,我们与LLM交互时,会直接输入一个提示(prompt),LLM然后会基于这个提示直接生成一个输出结果。这种做法有点像让一个人一次性从头到尾写出一篇文章,没有反复修改和迭代的机会。
代理工作流
代理工作流则更像是将写作过程分解为多个步骤:首先是根据主题大纲写一个草稿,然后是对草稿进行分析、修改和补充,之后是进一步完善和润色,如此反复迭代,直到最终生成期望的结果。
作用
测试任务是:”给定一个非空整数列表,返回所有偶数位置元素的和”。使用零示例提示方法,也就是直接让AI生成解决方案代码,GPT-3.5的正确率仅为48%,GPT-4的正确率为67%,表现都相对一般。
但是,当采用代理工作流程,将任务分解为分析问题、迭代编写代码、测试和调试等多个步骤时,GPT-3.5的表现甚至超过了GPT-4使用零示例提示的正确率。Ng指出,在GPT-4模型上应用代理工作流程,也同样取得了非常出色的结果。

概述

image.png

  • Reflection:让 Agent 审视和修正自己生成的输出;
  • Tool Use:LLM 生成代码、调用 API 等进行实际操作;
  • Planning:让 Agent 分解复杂任务并按计划执行;
  • Multiagent Collaboration:多个 Agent 扮演不同角色合作完成任务;
阅读全文 »
0%