- 博客(19175)
- 资源 (971)
- 问答 (2)
- 收藏
- 关注

原创 布客沉思录(一):【历史垃圾时间】就是彻头彻尾的伪概念
所以新的方向之一必须是能从市场上直接赚到钱的,对于程序员来讲,我们没有什么时间,但我们有自动化能力,有AI能力,所以最好的方式就是量化交易。《单干》一书中提到,最好的商业方式必须离钱最近,必须变现环节最小,轻资产大于重资产,自动大于手动,这样才能降低不可控性,那么量化交易一定是最符合这个描述的了。就算当时赚不到钱,也算是技术储备,等待经济好了,就一定能发挥作用。看到了吧,这个伪概念就是个自证预言:如果你觉得现在是【历史垃圾时间】,你放弃了自己的主观能动性,啥都不做,当然啥都不出错,但是啥都做不出来。
2024-08-14 14:43:16
3505
24

原创 【布客】已经制作完成的有声书
【超越想象的GPT医疗:第六章:延展大问题:如何让数学、编码和逻辑更可靠】【超越想象的GPT医疗:第二章:智能协作,GPT-4在医学中的超强潜力】【超越想象的GPT医疗:结语:欣赏AI的奇迹,人类智慧和无尽雄心的见证】【超越想象的GPT医疗:第一章:“达芬奇3”,与GPT-4的初次接触】【超越想象的GPT医疗:第九章:安全第一,在新的AI时代充分受益】【超越想象的GPT医疗:第三章:一个大问题:AI能“理解”吗】【超越想象的GPT医疗:引言:GPT-4医生的故事】
2024-08-10 13:16:08
1390
21

原创 布客社区及饱和式翻译计划 Q&A
A1:如果你现在,在AIGC大爆发之后问我这个问题,我只想告诉你们,翻译是 AIGC 中一种重要的形式,输出稳定,没有幻觉,比什么扩写仿写之类的好多了。当然我也尝试过很多其他的AIGC形式,比如源码解析、课程笔记之类的,但都没有翻译方便省事。翻译一定是未来几年技术自媒体 AIGC 的主流形态。
2024-08-06 13:52:20
997
13

原创 Quant文艺复兴计划正式启动!
此时此刻恰如彼时彼刻,所以我深知,如果我不自己动手写出一批教程,中文互联网就永远没有面向新手的开放教程可用。幸好现在我们有了ChatGPT,它减轻了我的主业工作量,让我有时间投入这个方面;同时,它也大大减轻了编写教程的工作量,能让这些想法迅速实现。再者,良好的量化实现是保证回测准度和自动化的前提之一。总结paperwithbacktest上的Quant前沿论文【自动】,解析代码【自动】寻找gh上的机器学习或深度学习的Quant代码,做源码解析【自动】挑选主流量化框架,翻译文档【自动】,做源码解析【自动】
2024-04-10 22:56:08
1061
60

原创 赚钱周报、风向标、大航海 23&24
龙哥赚钱周报 23在线阅读龙哥赚钱周报 202301-02龙哥赚钱周报 202303龙哥赚钱周报 202304龙哥赚钱周报 202305龙哥赚钱周报 202306龙哥赚钱周报 202307龙哥赚钱周报 202308龙哥赚钱周报 202309龙哥赚钱周报 202310龙哥赚钱周报 202311龙哥赚钱周报 202312龙哥风向标 23在线阅读龙哥风向标 202301龙哥风向标 202302龙哥风向标 202303龙哥风向标 202304龙哥风向标 202305龙哥
2024-04-09 12:03:53
2924

原创 一些用 GPT 翻译的计算机科学/人工智能 PDF 讲义
3D成像.pdf3D成像.pdf3D成像技术.pdf3D成像技术.pdf3D点云分析.pdf3D点云分析.pdfAAAI 2019 笔记.pdfAAAI 2019 笔记.pdfCMU 10.708 概率图模型讲义.pdfCMU 10.708 概率图模型讲义.pdfCMU 15-312 编程语言基础讲义.pdfCMU 15-312 编程语言基础讲义.pdfCMU 15-411 编译器设计讲义.pdfCMU 15-411 编译器设计讲义.pdfCMU 15-819 同伦类型论讲义.
2024-02-20 22:59:55
2259
原创 生成式人工智能实战(五)
原文:zh.annas-archive.org/md5/246c706bd9dc20aad8383b596aa862a0。
2025-09-13 02:04:22
637
原创 生成式人工智能实战(四)
生成式 AI 模型复杂且资源密集,需要仔细考虑数据质量、性能、安全性、成本和道德影响。对于任何生产部署,我们必须遵循以下最佳实践:监控关键指标、优化延迟、确保可扩展性、实施可观察性工具、优先考虑安全和合规性,以及使用托管身份和缓存。为了可观察性,我们实施了监控、记录和跟踪工具,如 MLflow、Traceloop 和 Prompt flow,以了解模型行为、诊断问题并改善用户体验。LLMOps 是 MLOps 中的一个专业领域,专注于管理 LLMs 的独特挑战和风险。
2025-09-13 02:03:46
359
原创 生成式人工智能实战(三)
将专有数据与 RAG 模型集成的好处是增强了 AI 系统的特定性、相关性、战略一致性、个性化、数据安全性和创新潜力。与仅仅扩大 LLM 的上下文窗口相比,使用专有数据提供了多个优势,因为前者提供了更准确、相关和个性化的答案。在生产环境中,使用向量数据库和向量索引来管理、安全和扩展嵌入对于性能和成本至关重要。获取专有数据、将其分块、创建嵌入并将详细信息保存到向量数据库中的过程取决于现有数据的形状。这可能需要大量的规划和数据工程工作。
2025-09-13 02:03:07
445
原创 生成式人工智能实战(二)
基于视觉的生成式 AI 模型使我们能够从简单的提示中创建独特且逼真的内容。这些模型可以生成新的内容,编辑和增强现有图像,并使用简单的提示。生成式 AI 视觉模型在创意内容、图像编辑、合成数据创建和生成式设计等多个用例中都有应用。有四种主要的生成式 AI 模型架构,每种架构都有其优势和挑战。我们解释了变分自编码器(VAEs)、生成对抗网络(GANs)、视觉 Transformer 模型(ViT)和扩散模型。
2025-09-13 02:02:28
333
原创 生成式人工智能实战(一)
本节介绍了支撑生成式 AI 的基本概念和技术。我们首先概述了生成式 AI 能做什么,它是如何工作的,以及如何在各种企业环境中应用。然后我们详细探讨了大型语言模型(LLMs)的细节,例如它们的结构、类别和主要概念。本节最后几章涵盖了通过 API 生成文本、图像和类似内容,提供了访问和利用这些技术的实用指南。第一章介绍了生成式 AI 的概念,并解释了其创建新内容(如文本、图像和代码)的能力。它讨论了各种企业应用案例,比较了生成式 AI 与传统 AI,并为考虑采用这项技术的组织提供指导。第二章深入探讨大型语言模型
2025-09-13 02:01:47
502
原创 生成式深度学习(四)
在本书中,我们通过过去十年的生成建模研究之旅,从 VAEs、GANs、自回归模型、正规化流模型、基于能量的模型和扩散模型的基本思想开始,建立在这些基础上,了解 VQ-GAN、Transformers、世界模型和多模态模型等最新技术如何推动生成模型在各种任务中所能实现的边界。我相信,在未来,生成建模可能是一种更深层次的人工智能的关键,超越任何特定任务,使机器能够有机地制定自己的奖励、策略,甚至在环境中产生意识。我的信念与 Karl Friston 最初开创的“主动推理”原则密切相关。
2025-09-13 02:01:10
346
原创 生成式深度学习(三)
谷歌 Brain 的论文,自信地命名为“注意力就是一切”¹,因推广注意力的概念而闻名,这个概念现在驱动着大多数最先进的文本生成模型。作者展示了如何创建称为的强大神经网络,用于顺序建模,而不需要复杂的循环或卷积架构,而只依赖于注意机制。这种方法克服了 RNN 方法的一个关键缺点,即难以并行化,因为它必须一次处理一个令牌的序列。Transformer 是高度可并行化的,使它们能够在大规模数据集上进行训练。
2025-09-13 02:00:33
286
原创 生成式深度学习(二)
为了理解 LSTM 的工作原理,我们将首先访问一个奇怪的监狱,那里的囚犯们组成了一个文学社团…Sopp 先生及其众包寓言的故事是对一种臭名昭著的用于文本等序列数据的自回归技术的类比:长短期记忆网络。在本章中,我们看到了自回归模型,如循环神经网络如何应用于生成模仿特定写作风格的文本序列,以及 PixelCNN 如何以顺序方式生成图像,每次一个像素。我们探索了两种不同类型的循环层——长短期记忆(LSTM)和门控循环单元(GRU)——并看到这些单元如何可以堆叠或双向化以形成更复杂的网络架构。
2025-09-13 01:59:55
144
原创 【无标题】生成式深度学习(一)
这本书正在成为我的生活的一部分。当我在客厅找到一本副本时,我问我的儿子,“你什么时候拿到这本书的?”他回答说,“你给我的时候”,对我的疑惑表示困惑。我们一起翻阅各个部分时,我开始把《生成式深度学习》看作是生成式人工智能的《格雷解剖学》。作者以令人难以置信的清晰度和令人放心的权威解剖了生成式人工智能的解剖学。他提供了一个真正非凡的快速发展领域的描述,其中包含了务实的例子、引人入胜的叙述和如此时下的参考资料,读起来就像是一部活生生的历史。
2025-09-13 01:59:17
116
原创 深度学习基础第二版(三)
强化学习在本质上是通过与环境互动学习。这个学习过程涉及到一个代理,一个环境和一个奖励信号。代理选择在环境中采取行动,根据行动获得奖励。演员选择行动的方式被称为策略。代理希望增加它接收到的奖励,因此必须学习与环境互动的最佳策略(图 13-2)。强化学习与我们迄今为止涵盖的其他学习类型不同。在传统的监督学习中,我们被给定数据和标签,并被要求根据数据预测标签。在无监督学习中,我们只给定数据,并被要求发现数据中的潜在结构。在强化学习中,我们既没有数据也没有标签。
2025-09-13 01:58:39
258
原创 深度学习基础第二版(二)
在本章中,我们探讨了表示学习中的各种方法。我们了解了如何使用自动编码器进行有效的降维。我们还学习了去噪和稀疏性,这些增强了自动编码器的有用属性。在讨论完自动编码器后,我们将注意力转向当输入的上下文比输入本身更具信息性时的表示学习。我们学习了如何使用 Skip-Gram 模型为英语单词生成嵌入,这将在我们探索用于理解语言的深度学习模型时非常有用。在下一章中,我们将在此基础上分析语言和其他序列使用深度学习。
2025-09-13 01:57:59
497
原创 深度学习基础第二版(一)
随着神经网络在 2000 年代的复苏,深度学习已经成为一个非常活跃的研究领域,为现代机器学习铺平了道路。本书使用解释和示例来帮助您理解这个复杂领域中的主要概念。像谷歌、微软和 Facebook 这样的大公司已经注意到这一点,并且正在积极发展内部的深度学习团队。对于我们其他人来说,深度学习仍然是一个相当复杂和难以理解的主题。研究论文充斥着行话,而零散的在线教程对于帮助建立对深度学习从业者如何以及为什么处理问题的强大直觉几乎没有帮助。我们的目标是弥合这一差距。
2025-09-13 01:57:18
535
原创 图检索增强生成(GraphRAG)精要(二)
0.77740.79410.9657表 8.5 中的结果提供了基于三个关键指标的系统性能的整体评估。答案正确性得分为 0.7774,模型大多数时候都能正确回答,但仍有大约四分之一的情况未能命中目标。上下文召回得分为 0.7941 表明,虽然检索系统做得相当不错,但它偶尔无法检索到所有必要的信息,这可能会影响整体准确性。另一方面,忠实度得分为 0.9657 非常出色,这意味着模型很少编造信息,并始终忠于检索到的上下文。
2025-09-13 01:56:36
206
原创 图检索增强生成(GraphRAG)精要(一)
到现在为止,你可能已经遇到或听说过 ChatGPT,这是对话式 AI 中最突出的例子之一。ChatGPT 是由 OpenAI 开发的一个对话式用户界面,由 LLM(如 GPT-4,OpenAI et al.,2024)提供支持。LLM 建立在 Transformer 架构(Vaswani et al.,2017)之上,这使得它们能够高效地处理和生成文本。这些模型在大量文本数据上训练,使它们能够学习模式、语法、上下文,甚至一定程度上的推理。
2025-09-13 01:55:57
470
原创 对话式人工智能高效指南(三)
什么让用户对自动化交互感到满意?通用的客户服务原则适用:用户应该感觉到他们已经到达了正确的位置,他们处于良好的手中,并且他们的时间是宝贵的。本章中我们讨论的第一个立即退订驱动因素是用户对 IVR、聊天机器人或虚拟代理的先前不良体验。你的机器人的问候或介绍将为对话体验定下基调。这是你赢得用户信任的机会——说服他们,你的虚拟代理在帮助用户达到目标方面可以像人类代理一样有效和高效。在第一章中,我们预告了一个重大的改进,该改进解决了用户“立即退订”的挑战。
2025-09-13 01:55:18
539
原创 对话式人工智能高效指南(二)
让我们更深入地探讨如何有效地添加这些功能。通过集成搜索功能,传统的基于意图的聊天机器人可以大大增强。意图非常适合回答常见的简短问题,而搜索非常适合长尾问题。传统的搜索返回链接或文档段落,而不是答案。RAG 通过从搜索检索到的文档中生成答案来扩展搜索功能。通过使用 RAG,聊天机器人可以实时提供上下文相关的响应,减少用户的不满,并增强对话体验。在组织的领域内定位答案也解决了开发者的意图维护和增强问题。RAG 实现必须考虑从处理延迟到提供回退机制或转交给人工代理以防止幻觉的几个问题。
2025-09-13 01:54:41
504
原创 对话式人工智能高效指南(一)
你是否有过与聊天机器人糟糕的体验?可能是一个总是告诉你“请仔细聆听——我们的菜单选项最近已更改”的语音系统,或者是一个永远不理解你问题的聊天机器人。希望你也曾有过与 AI 的美好体验——一个似乎了解你并能主动识别你需求的 AI。是什么让好的对话式 AI 与差的 AI 区分开来?随着公司寻求通过这项技术提升客户体验和自身盈利能力,对话式 AI 比以往任何时候都更加重要。生成式 AI 重新点燃了对这项技术的兴趣,并使得向聊天机器人添加智能变得比以往任何时候都更容易。许多这些聊天机器人在原型阶段看起来很棒,但在生
2025-09-13 01:54:02
273
原创 大语言模型数据分析(三)
我们将创建一个用于分类文本文档的链。一个 LangChain 链可能涉及许多步骤,每个步骤通过调用一个语言模型或一个通用的 Python 函数(例如,将语言模型调用的结果解析成标准格式)来实现。术语chain实际上有些误导。虽然你可能想象链是一个连续步骤的序列,但 LangChain 中的链要强大得多。例如,它们可能涉及并行步骤以及条件执行。然而,对于简单的文本分类应用,我们不需要这样的高级功能。相反,我们将限制自己使用只有几个步骤的简单链。我们的链将集成 LangChain 提供的几个标准组件。
2025-09-13 01:53:24
118
原创 大语言模型数据分析(二)
在本节中,我们将创建一个小应用程序来自动在图像中标记人。用户提供三个输入:包含要标记的图片的目录路径包含要寻找的人的图片的目录路径将标记的图片写入的输出目录的路径为了简化问题,我们将使用文件名来表示标签。我们假设显示要寻找的人的图片以显示的人的名字命名。例如,假设我们在包含要寻找的人的目录中有名为 Joe.png 和 Jane.png 的图片。给定一个要标记的图片,我们将简单地通过在其名称前加上图片中出现的名字来更改文件名。
2025-09-13 01:52:46
384
原创 大语言模型数据分析(一)
那么,语言模型究竟是什么呢?我们如何利用它们进行数据分析?本书的这一部分回答了这两个问题。在第一章中,我们讨论了语言模型背后的原理以及它们独特之处。我们还讨论了语言模型在数据分析中可以采用的所有不同方式,包括直接在数据上使用它们以及将它们作为更专业数据分析工具界面的可能性。在第二章中,我们与 ChatGPT 进行了一次“对话”:也就是说,我们通过与 OpenAI 开发的流行语言模型进行交互。我们见证了 ChatGPT 在执行各种文本任务时的灵活性,从文本分类到根据简明的任务描述从文本中提取特定信息。
2025-09-13 01:52:08
435
原创 无标签的数据指南(三)
深度学习是基于神经网络的先进机器学习形式,它特别适用于文本、图像、音频和视频等非结构化数据。深度学习在各个领域都有应用,例如医疗领域和制药业——用于诊断医疗状况和加速药物开发银行和金融——检测欺诈并区分伪造签名汽车行业——通过识别交通元素来推动自动驾驶语音和图像识别——使 Siri 和基于图像的医疗诊断和安全系统等技术成为可能神经网络的关键概念包括人工神经元(感知器)——生物神经元的简化模型。权重和偏差在感知器的功能中起着至关重要的作用。层——网络由输入层、隐藏层和输出层组成。
2025-09-13 01:51:29
119
原创 无标签的数据指南(二)
你可能听说过著名的“啤酒和尿布故事”。根据这个轶事,在超市购买尿布的顾客(大多是年轻人)也会在同一张发票上购买啤酒。换句话说,为婴儿购买尿布的年轻人有相当高的概率在同一笔交易中购买啤酒。我们不会对故事的真实性发表评论,但关联规则学习可以归因于从这个故事中得出的逻辑。正式来说,关联规则可以用来发现数据集中存在的变量之间的有力关系。我们可以使用关联规则来衡量数据集中变量之间的相关性和共现性。在给出的例子中(假设故事是真实的),可以分析每日顾客交易。
2025-09-13 01:50:52
509
原创 无标签的数据指南(一)
数据、数据集类型、质量和来源的介绍机器学习和机器学习算法类型不同类型算法的概述只存在模式,模式之上的模式,影响其他模式的模式。被模式隐藏的模式。模式中的模式。——查克·帕拉纽克有一种说法在流传:“数据是新的电力。”数据确实正在改变我们的世界,就像电力一样;没有人能否认这一点。但就像电力一样,我们必须记住,数据必须得到适当的利用才能发挥其价值。我们必须清理数据、分析和可视化它,然后才能从中发展出洞察力。
2025-09-13 01:50:13
299
原创 使用 Altair 和人工智能的数据故事讲述指南(四)
Python pandas 是一个数据操作、分析和可视化库。它提供了加载数据、允许您操作、分析和可视化数据的工具。在本书中,我们使用 pandas DataFrame,它由行和列组成的二维结构。DataFrame 以表格形式存储数据,使您能够快速轻松地操作、分析、过滤和汇总数据。创建 pandas DataFrame 有不同的方法。在本书中,我们考虑两种方法:从 Python 字典和从 CSV 文件。
2025-09-13 01:49:31
551
原创 使用 Altair 和人工智能的数据故事讲述指南(三)
在图表顶部添加上下文意味着在标题下方立即添加文本描述,如图 8.18 所示。在你的数据可视化中添加视觉背景对于提升观众的情感至关重要。结合颜色、大小和交互性可以帮助你更好地聚焦你的故事,并针对你的观众进行调整。当你在 DALL-E 中绘制图像时,请使用编辑工具保持一致性。考虑在图表中战略性地定位背景以增强其效果。《柯林斯词典》将“智慧”定义为“运用经验和知识做出明智决策或判断的能力。”应用于数据叙事,智慧使我们能够根据我们的数据做出更好的决策。智慧帮助我们继续在故事结束后继续讲述。
2025-09-13 01:48:54
506
原创 使用 Altair 和人工智能的数据故事讲述指南(二)
当你构建一个数据驱动的故事时,你应该考虑许多方面:从数据中提取的洞察力;数据背后的背景信息;以及与数据相关的下一步行动,邀请观众参与其中。数据、信息、知识、智慧(DIKW)金字塔帮助你考虑所有这些方面。在本部分,你将深化对 DIKW 金字塔所有步骤的理解。在第五章中,你将巩固与 DIKW 金字塔相关的概念。本章的第一部分集中在无家可归的案例研究上,以及如何使用 DIKW 金字塔将数据从原始图表转化为数据故事。本章还介绍了一些与数据讲故事相关的一般概念,例如叙事结构和数据讲故事弧线。在章节的第二部分,你将实施
2025-09-13 01:48:16
360
原创 使用 Altair 和人工智能的数据故事讲述指南(一)
什么是数据叙事?你如何使用 Python Altair 实现数据驱动的叙事?生成式 AI 会为构建数据故事带来哪些好处?你将在本书的第一部分找到这些问题的答案。这一部分以渐进的方式介绍生成式 AI 在数据叙事中的应用:首先,我们将探讨 GitHub Copilot,然后在第四章,我们将讨论 ChatGPT 和 DALL-E。我选择遵循这种学习策略,因为先建立理论基础以理解主要概念,然后再利用生成式 AI 提供的各种工具进行自动化,这样做会更好。
2025-09-13 01:47:37
242
原创 深度学习系统设计(三)
人们经常假设在深度学习中,工件是模型训练过程产生的模型文件。这在某种程度上是正确的。工件实际上是组成模型训练过程中组件的输入和输出的文件和对象。这是一个关键的区别,如果你想设计一个支持模型再现性的系统,记住这个更广泛的定义是很重要的。在这个定义下,工件可以包括用于深度学习项目的数据集、模型、代码或任何其他数量的对象。例如,原始输入训练数据、通过标记工具生成的带标签数据集以及数据处理流水线的结果数据都被认为是工件。此外,为了进行性能比较、可重现性和故障排除,必须将工件与描述其事实和血统的元数据一起保存。
2025-09-13 01:46:58
368
原创 深度学习系统设计(二)
与第 3.3 节讨论的单设备训练相比,用户工作流程保持不变。数据科学家 Alex 首先构建模型训练代码,并向训练服务发送训练请求。然后,服务运行实际训练,并在最后生成模型。不过,有一些关键区别。首先,Alex 升级了意图分类训练代码,使其能够适用于单设备和多设备。其次,服务开发者 Tang 修改了训练服务 API,提供了一个新的参数。该参数允许 Alex 为分布式训练设置工作组的大小。要正确管理服务器集群,我们需要 Kubernetes 的帮助。
2025-09-13 01:46:21
397
原创 深度学习系统设计(一)
如果一个深度学习系统能够连接两个不同的世界——研究和原型设计与生产运营,那么可以假定它是有效的。设计这种系统的团队必须能够与这两个世界中的从业者进行沟通,并处理来自每个世界的不同要求和约束。这需要对深度学习系统中的组件是如何设计的,以及它们预期如何协同工作有一个原则性的理解。现有文献很少涵盖深度学习工程的这一方面。当初级软件工程师入职并期望成为有效的深度学习工程师时,这种信息差距就会成为一个问题。多年来,工程团队通过使用他们获得的经验并从文献中挖掘出他们需要了解的知识来填补这一空白。
2025-09-13 01:45:35
785
原创 从零开始的深度学习(三)
最后,我们将展示如何通过批量矩阵乘法来表达批量、多通道卷积操作,以便在 NumPy 中高效实现它。要理解卷积是如何工作的,请考虑在完全连接神经网络的前向传播中发生的情况:我们收到一个大小为的输入。我们将其乘以一个大小为的参数。我们得到一个大小为的结果输出。在卷积层中,相比之下:我们收到一个大小为的输入。我们将其与一个大小为的参数进行卷积。我们得到一个大小为的结果输出。使卷积操作看起来更像常规前馈操作的关键是首先从输入图像的每个通道中提取“图像补丁”。
2025-09-13 01:44:54
124
原创 从零开始的深度学习(二)
Dropout 只是在训练的每个前向传递中随机选择一层中的一定比例p的神经元,并将它们设置为 0。这种奇怪的技巧降低了网络的容量,但在许多情况下,经验上确实可以防止网络过拟合。这在更深层次的网络中尤其如此,因为所学习的特征构造上是多层抽象远离原始特征。尽管 dropout 可以帮助我们的网络在训练过程中避免过拟合,但当预测时,我们仍然希望为我们的网络提供“最佳机会”来进行正确的预测。因此,Dropout。
2025-09-13 01:44:14
141
公司的自建邮件服务器投不进 163,显示“451 DT:SPM”
2020-02-19
imagemagick 从 png 转换的 pdf 太大了
2020-02-19
TA创建的收藏夹 TA关注的收藏夹
TA关注的人