2024-08-08发表2026-05-10更新书生·浦语三期实战营4 分钟读完 · 大约553个字

博客：书生·浦语大模型全链路开源开放体系及其最新发展

在现代人工智能技术的迅猛发展浪潮中，书生·浦语大模型全链路开源开放体系以其独特的优势和卓越的性能，在各个领域中不断取得突破性进展。本文将详细介绍该体系的发展历程、最新版本的特征、基于规则、模型和反馈的数据生成方法，以及mind search项目、开源数据提取工具和预训练框架、EXTINA的评测和部署、知识管理工具等各个方面的应用与优化策略。

书生·浦语大模型全链路开源开放体系的历程及最新版本的特征

书生·浦语大模型开源开放体系在多个方面表现出色，包括数据收集整理、模型训练、微调、评测和搜索引擎AI应用的部署等方面。最新版本书生·浦语大模型2.5在推理能力和短期记忆等方面有质的飞跃，并开放了label LLM项目，方便标注数据。此外，视频还介绍了模型的性能天梯和应用前景。

书生浦语大模型开源开放体系
InputLM2.5性能飞跃
迭代发展过程中的数据驱动模型性能

基于规则、模型和反馈的数据生成方法，以及如何使用开源项目进行标注和推理

反映模型的数据生成方法在模型优化和训练过程中至关重要，以下是一些关键方法的介绍：

基于模型的反馈数据生成方法：包括相似度对齐和基于反馈的强化训练。
大海捞针实验：介绍模型的推理能力和大海捞针实验，模型在处理稀长背景知识的表现。
问题匹配分块：介绍问题匹配分块的方法，可以用于语言模型的索引和问题理解。

mind search项目

书生·浦语三期实战营大模型

2024-07-19发表2026-05-10更新python3 分钟读完 · 大约403个字

python-debug

任务一

请用Python实现一个wordcount函数，统计英文字符串中每个单词出现的次数。返回一个字典，key为单词，value为对应单词出现的次数。

源程序：

"""  请用Python实现一个wordcount函数，统计英文字符串中每个单词出现的次数。返回一个字典，key为单词，value为对应单词出现的次数。

    TIPS：记得先去掉标点符号,然后把每个单词转换成小写。不需要考虑特别多的标点符号，只需要考虑实例输入中存在的就可以。"""

text = """
Got this panda plush toy for my daughter's birthday,
who loves it and takes it everywhere. It's soft and
super cute, and its face has a friendly look. It's
a bit small for what I paid though. I think there
might be other options that are bigger for the
same price. It arrived a day earlier than expected,
so I got to play with it myself before I gave it
to her.
"""

def wordcount(text):

    text=text.replace(",","")
    text=text.replace(".","")
    text=text.replace("\n","")

    text_list=text.split(" ")
    text_dict={}
    for i in text_list:
        if i not in text_dict:
            text_dict[i]=1
        else:
            text_dict[i]+=1
            
    return text_dict
    
print(wordcount(text))

任务二

请使用本地vscode连接远程开发机，将上面你写的wordcount函数在开发机上进行debug，体验debug的全流程，并完成一份debug笔记(需要截图)。

1.首先重命名debug命令

在bashrc配置文件中输入:
alias pyd='python -m debugpy --wait-for-client --listen 5678'

再输入保存命令：
source ~/.bashrc

pythonPython

2024-05-16发表2026-05-10更新🍉Book2 分钟读完 · 大约313个字

🍉Book-6章-支持向量机

章节介绍

统计学领域名声赫赫的SVM与核方法是时至今日仍在高频使用的经典算法。

笔记介绍

对本章各节知识点进行汇总，主要分为引入原因，原理思想，和一些思考，对于数学推导内容介绍较少，有需要的可以先阅读西瓜书，再参考南瓜书的数学推导。

数学知识

大部分都是规划类、最优化的问题，最好先进行相关知识的学习。

这里推荐一本书：最优化：建模、算法与理论 (刘浩洋户将李勇锋文再文)

SVM-支持向量机

引入原因：

在线性可分的条件下，我们在训练集做分类任务时，最基本的想法就是在样本空间中找到一个超平面进行划分,
但是对于分类任务，我们可以画出很多个超平面，这时候就需要引入损失函数，对超平面进行选择，而使得两个异类支持向量的距离最大化，就是我们所说的支持向量机的基本型。

🍉Book机器学习

2024-05-16发表2026-05-10更新🍉Book1 分钟读完 · 大约174个字

🍉Book-5章-神经网络

神经网络模型

1943年一直沿用至今的M-P神经网络模型

M-P神经网络模型

模型解释：

将输入神经元的x乘上相应权重w并求和，将结果与阈值$\theta$做差，再经过激活函数f得到输出值y

名词解释：

阈值(threshold / bias):
表示神经元电位超过阈值则被激活

激活函数(activation function)：也称挤压函数或响应函数，用于将输入值映射为0/1或(0，1)

训练目标：

通过训练模型，得出合适的w和$\theta$，其中训练算法最常见的就是下面会说到的BP算法

🍉Book机器学习

2024-05-16发表2026-05-10更新🍉Book3 分钟读完 · 大约419个字

🍉Book-4章-决策树

递归终止条件

决策树使用递归实现，而递归终止条件有以下三种：

当前结点所有样本属于同类，无需划分
当前属性集为空，无法划分，选取此节点中数量更多的标记作为类别标记
当前样本集为空，不能划分，依据父节点中数量更多的标记作为类别标记

名词概念

1.纯度：同类聚集程度高、不同类越分散，则纯度越高
2.信息熵：纯度的量化指标，来源于信息论
3.剪枝：防止决策树过拟合，减去部分划分属性。分为预剪枝和后剪枝

信息熵

信息熵计算公式：
$$ E n t ( D ) = - \sum _ { k = 1 } ^ { | y | } p _ { k } \log _ { 2 } p _ { k }$$
信息熵用于衡量信息的不确定性或信息的混乱程度，我们可以将其用于量化纯度
信息熵越大，数据分布越均匀、随机、杂乱无章，明显这不是我们想要的。我们想要的是相同类靠近，不同类远离的效果，即需要越小的信息熵

$p_k$表示选到k类别的概率，而 $-\log _ { 2 } p _ { k }$则表示信息量

1	我们可以理解对于某一事件，其发生的概率越小，那么其信息量越大；发生的概率越大，那么其信息量越小。所有对两者求期望即得到信息熵。

注意：此处计算公式里的Y的输出值种类，如二分类问题中Y=2

🍉Book机器学习

2024-05-16发表2026-05-10更新🍉Book2 分钟读完 · 大约250个字

🍉Book-3章-线性模型

所需数学知识

求偏导
矩阵求导
求逆矩阵

名词解释

1.序关系

有序：属性之间可进行相对比较（如大、中、小）
无序：属性之间不可进行相对比较（如南瓜、西瓜、冬瓜）

2.符号arg与s.t.

arg：即argument（参数），用于表示求出指定函数时的**参数取值**
	例如：
	arg min 就是使后面这个式子达到最小值时的 变量的取值
	arg max 就是使后面这个式子达到最大值时的 变量的取值
	
s.t.：即subject to，意思是受限于...，后面紧跟约束条件

3.闭式解

也叫做 解析解，
闭式解就是一些严格的公式,给出任意的自变量就可以求出其因变量,也就是问题的解
南瓜书中说闭式解是指可以通过具体的表达式解出待解参数

模型介绍

🍉Book机器学习

2024-05-16发表2026-05-10更新🍉Book2 分钟读完 · 大约331个字

🍉Book-2章-模型评估与选择

术语名词

1.泛化误差与经验误差

泛化误差：在“未来”样本上的误差

经验误差：在训练集上的误差，亦称“训练误差”

训练集样本数越接近数据集数量，经验误差就越小。但是经验误差越小，模型效果就越好吗？

请注意，我们是为了得到泛化能力强的模型，而经验误差≠泛化误差

经验误差很小，会使模型学习到训练样本中的许多无用特征，导致泛化能力变弱
我们称其为过拟合(overfitting)

而与之相对的概念，我们称为欠拟合(underfitting)，其表示的就是模型没有很好的学习到训练样本上的特征，从而也导致泛化能力变弱

2.过拟合与欠拟合

过拟合：模型在训练数据上表现得过于复杂，以至于在未见过的数据上表现不佳。欠拟合：模型在训练数据上表现得过于简单，无法捕捉到数据的内在结构和模式。

出现原因：
1.出现欠拟合的情况，一般是由于样本特征少，模型复杂度低等

🍉Book机器学习

2024-05-15发表2026-05-10更新🍉Book1 分钟读完 · 大约122个字

🍉Book-1章-绪论

本书的使用：

第1章-绪论

计算学习理论

概率近似正确 模型：PAC (Probably Approximate Correct)

公式：$$ P ( | f ( x ) - y | \leq \epsilon ) \geq 1 - \delta$$

其中 f 表示模型，y表示真相，x为样本

公式分析：

其中$ | f ( x ) - y | \leq \epsilon$ 用于计算模型的误差，判断模型的优劣

由于模型基于不同的算法和数据是不唯一的

故用$$ P ( … ) \geq 1 - \delta$$ 表示取得该模型的概率

🍉Book机器学习

2024-05-14发表2026-05-10更新Java4 分钟读完 · 大约590个字

定义类和方法

对象是实例化的类，所以对象也叫做实例。

一个实例(对象)由属性 (变量or数据)和方法 (行为)构成

所以属性和方法叫做对象的成员

对象的属性叫做成员变量or实例变量(这俩也有点区别)

对象的方法叫做成员方法

在面向对象编程中，成员变量和实例变量通常指的是相同的概念，但它们的使用和含义略有不同，具体取决于上下文：

成员变量：
- 成员变量是类的一部分，它们定义了类的状态或属性。
- 每个成员变量都是类的蓝图，用于创建对象时存储数据。
- 成员变量可以是静态的或非静态的（实例变量）。
实例变量（非静态变量）：
- 实例变量是成员变量的一种，它们属于类的特定实例（对象）。
- 每个实例变量的副本都存储在创建的对象中，这意味着每个对象都有自己的实例变量副本。
- 实例变量的值对于每个对象都是独立的，一个对象的实例变量改变不会影响另一个对象的相应变量。
静态变量（类变量）：
- 静态变量也是成员变量的一种，但它们不属于任何特定的实例。
- 静态变量只有单一的副本，所有类的实例共享这个副本。
- 静态变量通常用于存储类级别的数据，如配置信息或计数器。

以下是一些关键点的对比：

作用域：实例变量属于对象，每个对象都有其独立的副本；静态变量属于类，所有实例共享同一个副本。
生命周期：实例变量随对象的创建而存在，随对象的销毁而消失；静态变量随类的加载而存在，随程序结束或类被卸载而消失。
访问：实例变量可以通过对象的引用访问；静态变量可以通过类名直接访问，也可以通过对象引用访问。

JavaJava

2024-05-13发表2026-05-10更新Blog搭建1 分钟读完 · 大约138个字

Hexo搭建实遇问题

1.spawn_failed问题

原因分析：

其实出现这个问题，很大可能是因为https和http的proxy的对应的分别是https和http开proxy server，

而https的proxy server可能无法正常工作。

解决办法：

修改_config.yml文件的deploy部分，将https 修改为http url 或者设置为git url, 配置为https oauth2 加token

设置为git url(推荐) 亲测有效

deploy:
    type: git
    repo: git@github.com:your_github_id/your_github_id.github.io.git
    branch: gh-pages

2.头像无法显示问题

原因分析：

Blog搭建Hexo

博客：书生·浦语大模型全链路开源开放体系及其最新发展

书生·浦语大模型全链路开源开放体系的历程及最新版本的特征

基于规则、模型和反馈的数据生成方法，以及如何使用开源项目进行标注和推理

mind search项目

任务一

源程序：

任务二

章节介绍

笔记介绍

数学知识

SVM-支持向量机

引入原因：

神经网络模型

M-P神经网络模型

模型解释：

名词解释：

训练目标：

递归终止条件

名词概念

信息熵

所需数学知识

名词解释

模型介绍

术语名词

本书的使用：

计算学习理论

1.spawn_failed问题

原因分析：

解决办法：

2.头像无法显示问题

原因分析：

链接

标签

最新文章

归档