公众号关注“卡尔的AI沃茨”设为“星标“,了解最新的AIGC资讯

作者:Shutian, 卡尔

AIGC开源免费教程(已支持ChatGPT,Midjourney,Stable Diffusion,Runway): https://www.learnprompt.pro

看看这周AIGC圈有没有你不愿意错过的新闻。

StabilityAI最新大模型 | VSCode Copilot大更新 | ChatGPT推出自定义指令功能 | Meta Llama2发布

Top News

1. Stability AI团队推出全新开源大型语言模型FreeWilly1和FreeWilly2

Stability AI的CarperAI团队开发了两款强大的新型开源大型语言模型(LLMs):FreeWilly1和其后续版本FreeWilly2。这两款模型在多种指标下的推理比赛中表现出色。

FreeWilly1模型是在原始的LLaMA 65B基础模型之上,使用行业标准的Alpaca格式进行监督微调(SFT)而建立的;而FreeWilly2则使用LLaMA 2 70B基础模型,其性能在某些任务上与GPT-3.5相当。

这两款模型都是研究实验,以非商业许可证发布。

2. VS Code引入GitHub Copilot新功能

GitHub Copilot在VS Code中引入了一系列新功能,以提高开发者的效率和便利性。以下是一些主要的新功能:

聊天会话移动:现在,你可以将聊天会话从侧边栏移动到编辑器空间,这为你提供了更多的操作空间。创建工作区:通过使用/createWorkspace命令,你可以要求Copilot为流行的项目类型创建工作区。Copilot首先会为你的请求生成一个目录结构,然后点击”Create Workspace”,它将创建建议的项目,包括文件、目录等。创建笔记本:通过/createNotebook命令,Copilot可以根据你的需求创建一个笔记本大纲。如果你喜欢这个大纲,点击”Create Notebook”就可以创建一个笔记本。正则表达式搜索:Copilot现在可以为你编写正则表达式搜索,这样你就可以找到你不确定如何找到的东西。可以查看/search命令。实时预览模式:编辑器聊天现在有了一个新的”livePreview”模式,使得在接受建议之前更容易直接对文档进行更改并修复错误。笔记本编辑器中的Copilot:在笔记本编辑器中使用Copilot,现在可以使用笔记本上下文提供更相关的建议。它甚至可以帮助处理单元格执行失败,并自动接受建议。自动实现建议:现在,你可以使用Copilot在进行PR审查时自动实现建议。这需要GitHub Pull Requests和Issues扩展。快速问题体验:有一个实验性的快速问题体验:使用聊天在不离开上下文的情况下提出快速的编程问题。Copilot聊天:最后,你不再需要Insiders才能使用Copilot聊天。如果你喜欢稳定版,那么它也可以正常工作。

新闻链接:https://twitter.com/code/status/1682435342610079761

3. ChatGPT推出自定义指令功能

OpenAI正在推出一项新功能,让用户能够更好地控制ChatGPT的响应方式。这项名为“自定义指令”的功能,允许用户添加他们希望ChatGPT在生成响应时考虑的偏好或要求

这项功能将首先在Plus计划中以beta版本提供,未来几周将向所有用户开放。例如,一位教师制定课程计划时,不再需要重复他们正在教授的是三年级的科学课程。一个偏好高效代码的开发者,如果他们的首选语言不是Python,他们只需说一次,就能被理解。对于一个大家庭的购物清单,模型可以考虑到清单中的6份食物。

此外,添加指令也可以帮助改善用户使用插件的体验,通过与插件共享相关信息。例如,如果用户在指令中指定了他们居住的城市,并使用一个帮助他们预订餐厅的插件,模型可能会在调用插件时包含用户的城市。

博客链接:https://openai.com/blog/custom-instructions-for-chatgpt

4. Meta发布Llama2!

Meta和Microsoft联合发布了Llama 2,这是Llama的下一代版本。

Llama 2的开源版本现已准备就绪,免费提供给研究和商业使用。包括预训练模型和对话微调版本的模型权重和起始代码。从今天开始,Llama 2在Azure AI模型目录中可用,使得使用Microsoft Azure的开发者可以使用它,并利用他们的云原生工具进行内容过滤和安全特性。它还优化了在Windows上本地运行,使开发者在为客户提供生成AI体验时有一个无缝的工作流程。Llama 2也可以通过Amazon Web Services (AWS)、Hugging Face和其他提供商获得。

新闻链接:https://ai.meta.com/llama/

新玩法 Geeks

1. AnyDoor:港大×阿里开发视觉任意门

阿里巴巴和香港大学的研究团队开发出了一种名为AnyDoor的AI工具,能够将物体无缝地“传送”到照片场景中,同时自动适应光线角度和透视。这个工具实现了零样本的图像嵌入,无需针对具体物品调整模型。有了它,网购衣服也可以直接看上身效果了。

AnyDoor一次能够传送多个物体,不仅如此,它还能移动图像里的已有物品。有网友看了之后赞叹到,或许接下来就会进化到(把物体传入到)视频了。

AnyDoor的工作流程大致如下:首先对包含目标物体的图像进行背景消除,然后进行自监督式的物体提取并转换成token。为了适应角度和光线的变化,除了提取物品的整体特征,还需要额外提取细节信息。最后一步就是将这些信息进行注入。

论文链接:https://arxiv.org/abs/2307.09481

新开发 Developers

1. LLM星座:15821个大模型的起源和发展

自2022年底以来,大型语言模型(LLMs)如ChatGPT和Bard等受到广大用户的关注。每周都有数百种新的LLMs问世并被上传到Hugging Face上。目前,该站点已上传了近16,000种文本生成模型。

对于这些涌入的LLMs,很多开发者和研究者都想知道哪些LLMs的骨架、设定、训练方法和类别将会成为未来。然而,目前还没有一个全面的LLMs索引。因此,有研究者利用Hugging Face LLMs相对系统的命名法,执行了层次聚类,并使用n-grams和词频-逆文档频率来识别LLMs之间的社区。这种方法成功地识别出LLMs的家族,并将LLMs准确地聚类到有意义的子组中。

它们为此提供了一个公开的Web应用程序——LLM Constellation(即LLM星座),让大家可以浏览和探索它们的LLMs图谱,它包括15,821种LLMs。Constellation能够快速生成各种可视化,包括树状图、图形、词云和散点图。

网站链接:https://llmconstellation.olafblitz.repl.co/

2. Prompt Diffusion:一种使扩散式生成模型具备上下文学习能力的AI框架

近年来,机器学习的进步推动了大型语言模型(LLMs)的发展,包括BERT、GPT-2、BART、T5、GPT-3和GPT-4等。这些模型在文本生成、机器翻译、情感分析和问答等任务中表现出色。他们的一种突出特性就是能够从上下文中学习。例如,像GPT-3这样具有上下文学习能力的LLMs可以通过在输入-输出样本和新的查询输入上进行条件化,完成任务,而无需优化任何模型参数。

然而,在计算机视觉领域中还很少有人应用上下文学习。微软和德克萨斯大学奥斯汀分校的研究人员提出了一种名为Prompt Diffusion的新模型架构,以实现在视觉-语言提示下进行上下文学习,能够处理各种视觉-语言任务。

Prompt Diffusion在六个不同的视觉-语言任务中进行了测试。他们使用视觉-语言提示来描述一个通用的视觉-语言任务,然后构建了Prompt Diffusion,它可以将视觉-语言提示作为输入。他们提出Prompt Diffusion作为启用文本引导的扩散模型进行上下文学习能力的第一步。然后,它可以使用这些知识来生成输出图像,通过将连接重新映射到查询图像,并包含语言指令。

更重要的是,跨多个任务的学习赋予了模型上下文学习的能力。Prompt Diffusion可以成功地泛化到多个新的、尚未观察到的任务。除了在训练期间看到的六个任务上表现良好外,Prompt Diffusion还在熟悉和新的、未见过的任务上进行了上下文学习,表现出色。

Github链接:https://github.com/Zhendong-Wang/Prompt-Diffusion

3. MLC-LLM:让大模型在手机上运行

最近,MLC-LLM(Machine Learning Compilation-Large Language Models)被引入,这是一个开放的框架,可以将LLMs直接带入CUDA、Vulkan和Metal等广泛的平台类别,并带有GPU加速。

MLC-LLM使语言模型能够在包括CPU和GPU在内的广泛硬件后端上本地部署。这意味着任何语言模型都可以在本地设备上运行,无需服务器或基于云的基础设施。MLC-LLM提供了一个高效的框架,允许开发者为他们自己的用例(如自然语言处理(NLP)或计算机视觉)优化模型性能。它甚至可以使用本地GPU进行加速,使得在个人设备上运行复杂模型成为可能。

MLC-LLM在其GitHub页面上提供了详细的使用指南,包括如何在iPhone、Windows、Linux、Mac和Web浏览器上本地运行LLMs和聊天机器人的具体指导。对于iPhone用户,MLC-LLM提供了一个可以通过TestFlight页面安装的iOS聊天应用。对于Windows、Linux和Mac用户,MLC-LLM提供了一个命令行界面(CLI)应用,用户可以在终端与机器人聊天。对于Web浏览器用户,MLC-LLM提供了一个名为WebLLM的配套项目,可以将模型本地部署到浏览器。

Github链接:https://github.com/mlc-ai/mlc-llm

4. Langchain发布LangSmith:Langchain官方调试平台

LangChain推出了一款名为LangSmith的新平台,旨在帮助开发者将LLM应用从原型转化为生产环境。

LangSmith提供了一个统一的系统,用于调试、测试、评估和监控LLM应用。它旨在帮助开发者构建和迭代能够利用LLM的强大功能并处理其复杂性的产品。

LangSmith的主要功能包括:

调试:LangSmith提供了模型输入和每个步骤链中事件的完全可视化,使团队能够轻松地实验新的链和提示模板,并找出产生意外结果、错误或延迟问题的源头。测试:LangSmith可以轻松创建数据集,然后轻松地在这些数据集上运行链和提示。评估:LangSmith与LangChain的开源评估模块无缝集成。这些模块有两种主要类型的评估:启发式和LLM。启发式评估将使用如正则表达式之类的逻辑来评估答案的正确性。LLM评估将使用LLM来评估自身。监控:开发者需要积极跟踪性能,并根据反馈优化性能。LangSmith可以帮助开发者跟踪应用的系统级性能(如延迟和成本)、跟踪模型/链性能(通过将反馈与运行关联起来)、调试问题(深入研究出错的特定运行)以及了解用户如何与应用互动以及他们的体验如何。统一的平台:LangSmith将这些产品领域的独特价值集成在一个完全集成的中心,从而为开发者提供了一个单一的、完全集成的中心来完成这项工作。

网站链接:https://smith.langchain.com/

新思考 Thinkers

1. 一部完全由AI生成的电视剧,你会看吗?

旧金山初创公司Fable创造出能编写、制作、指导、动画制作甚至为全新电视节目配音的AI技术SHOW-1。首个试水作品:由AI完全编写、制作并配音的20分钟《南方公园》全新剧集。对于无法实现长篇创作和产生高质量内容的现有生成AI系统,以及正在面临编剧和演员罢工的好莱坞,这无疑是一场冲击,也对个性化、无限制的娱乐未来提供了可能。

这款名为SHOW-1的AI技术,成功地将几种AI模型整合到一起:包括用于编写的大型语言模型(LLMs)、自定义扩散模型用于图像创建,以及多智能体模拟用于故事进展和角色塑造。SHOW-1的技术实质上是将这些现有框架结合成一个统一的系统,令人兴奋的同时也带来了潜在的挑战。

对于行业来说,从业者的恐惧在于AI会迅速取代电视和电影领域的工作岗位,而有趣的是,影视制作公司期望的是,AI的作品能够达到现有IP的质量水平。

个性化的内容,也就是观众可以决定参数的内容,代表了娱乐行业的下一阶段可能的发展。也许在下一个十年,由于生成AI的支持,定制化、个性化、无限制的娱乐世界就会到来。

你是否觉得这是一件好事呢?

消息链接:https://www.reddit.com/comments/1554zd7

Langchain2/&&GPT

EP190%ChatGPTVicuna

使GPT42

AIGC

AIAIGChttps://www.learnprompt.pro/ChatGPTMidjourneyRunwayStableDiffusion使使AIGPTApiAIGC

如果群二维码失效的话,也欢迎加我的号:carl_like_travel

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注