书生·浦语大模型全链路开源开放体系及其最新发展

书生·浦语大模型全链路开源开放体系及其最新发展

博客:书生·浦语大模型全链路开源开放体系及其最新发展

在现代人工智能技术的迅猛发展浪潮中,书生·浦语大模型全链路开源开放体系以其独特的优势和卓越的性能,在各个领域中不断取得突破性进展。本文将详细介绍该体系的发展历程、最新版本的特征、基于规则、模型和反馈的数据生成方法,以及mind search项目、开源数据提取工具和预训练框架、EXTINA的评测和部署、知识管理工具等各个方面的应用与优化策略。

书生·浦语大模型全链路开源开放体系的历程及最新版本的特征

书生·浦语大模型开源开放体系在多个方面表现出色,包括数据收集整理、模型训练、微调、评测和搜索引擎AI应用的部署等方面。最新版本书生·浦语大模型2.5在推理能力和短期记忆等方面有质的飞跃,并开放了label LLM项目,方便标注数据。此外,视频还介绍了模型的性能天梯和应用前景。

  • 书生浦语大模型开源开放体系

  • InputLM2.5性能飞跃

  • 迭代发展过程中的数据驱动模型性能

基于规则、模型和反馈的数据生成方法,以及如何使用开源项目进行标注和推理

反映模型的数据生成方法在模型优化和训练过程中至关重要,以下是一些关键方法的介绍:

  • 基于模型的反馈数据生成方法:包括相似度对齐和基于反馈的强化训练。

  • 大海捞针实验:介绍模型的推理能力和大海捞针实验,模型在处理稀长背景知识的表现。

  • 问题匹配分块:介绍问题匹配分块的方法,可以用于语言模型的索引和问题理解。

mind search项目

阅读更多
python-debug

python-debug

任务一

请用Python实现一个wordcount函数,统计英文字符串中每个单词出现的次数。返回一个字典,key为单词,value为对应单词出现的次数。

源程序:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
"""  请用Python实现一个wordcount函数,统计英文字符串中每个单词出现的次数。返回一个字典,key为单词,value为对应单词出现的次数。

    TIPS:记得先去掉标点符号,然后把每个单词转换成小写。不需要考虑特别多的标点符号,只需要考虑实例输入中存在的就可以。"""

text = """
Got this panda plush toy for my daughter's birthday,
who loves it and takes it everywhere. It's soft and
super cute, and its face has a friendly look. It's
a bit small for what I paid though. I think there
might be other options that are bigger for the
same price. It arrived a day earlier than expected,
so I got to play with it myself before I gave it
to her.
"""

def wordcount(text):

    text=text.replace(",","")
    text=text.replace(".","")
    text=text.replace("\n","")

    text_list=text.split(" ")
    text_dict={}
    for i in text_list:
        if i not in text_dict:
            text_dict[i]=1
        else:
            text_dict[i]+=1
           
    return text_dict
   
print(wordcount(text))

任务二

请使用本地vscode连接远程开发机,将上面你写的wordcount函数在开发机上进行debug,体验debug的全流程,并完成一份debug笔记(需要截图)。

1.首先重命名debug命令

在bashrc配置文件中输入:
alias pyd='python -m debugpy --wait-for-client --listen 5678'

再输入保存命令:
source ~/.bashrc

阅读更多
🍉Book-6章-支持向量机

🍉Book-6章-支持向量机

章节介绍

统计学领域名声赫赫的SVM核方法是时至今日仍在高频使用的经典算法。

笔记介绍

对本章各节知识点进行汇总,主要分为引入原因,原理思想,和一些思考,对于数学推导内容介绍较少,有需要的可以先阅读西瓜书,再参考南瓜书的数学推导。

数学知识

大部分都是规划类、最优化的问题,最好先进行相关知识的学习。

这里推荐一本书:最优化:建模、算法与理论 (刘浩洋 户将 李勇锋 文再文)

SVM-支持向量机

引入原因:

线性可分的条件下,我们在训练集做分类任务时,最基本的想法就是在样本空间中找到一个超平面进行划分,
但是对于分类任务,我们可以画出很多个超平面,这时候就需要引入损失函数,对超平面进行选择,而使得两个异类支持向量距离最大化,就是我们所说的支持向量机的基本型

阅读更多
🍉Book-5章-神经网络

🍉Book-5章-神经网络

神经网络模型

1943年一直沿用至今的M-P神经网络模型

M-P神经网络模型

模型解释

将输入神经元的x乘上相应权重w并求和,将结果与阈值$\theta$做差,再经过激活函数f得到输出值y

名词解释

阈值(threshold / bias):
表示神经元电位超过阈值则被激活

激活函数(activation function):也称挤压函数响应函数,用于将输入值映射为0/1或(0,1)

训练目标

通过训练模型,得出合适的w和$\theta$,其中训练算法最常见的就是下面会说到的BP算法

阅读更多
🍉Book-4章-决策树

🍉Book-4章-决策树

递归终止条件

决策树使用递归实现,而递归终止条件有以下三种:

  1. 当前结点所有样本属于同类,无需划分

  2. 当前属性集为空,无法划分,选取此节点中数量更多的标记作为类别标记

  3. 当前样本集为空,不能划分,依据父节点中数量更多的标记作为类别标记

名词概念

1.纯度:同类聚集程度高、不同类越分散,则纯度越高
2.信息熵:纯度的量化指标,来源于信息论
3.剪枝:防止决策树过拟合,减去部分划分属性。分为预剪枝和后剪枝

信息熵

信息熵计算公式
$$ E n t ( D ) = - \sum _ { k = 1 } ^ { | y | } p _ { k } \log _ { 2 } p _ { k }$$
信息熵用于衡量信息的不确定性或信息的混乱程度,我们可以将其用于量化纯度
信息熵越大,数据分布越均匀、随机、杂乱无章,明显这不是我们想要的。我们想要的是相同类靠近,不同类远离的效果,即需要越小的信息熵

$p_k$表示选到k类别的概率,而 $-\log _ { 2 } p _ { k }$则表示信息量

1
我们可以理解对于某一事件,其发生的概率越小,那么其信息量越大;发生的概率越大,那么其信息量越小。所有对两者求期望即得到信息熵。

注意:此处计算公式里的Y的输出值种类,如二分类问题中Y=2

阅读更多
🍉Book-3章-线性模型

🍉Book-3章-线性模型

所需数学知识

  1. 求偏导
  2. 矩阵求导
  3. 求逆矩阵

名词解释

1.序关系

有序:属性之间可进行相对比较(如大、中、小)
无序:属性之间不可进行相对比较(如南瓜、西瓜、冬瓜)

2.符号arg与s.t.

arg:即argument(参数),用于表示求出指定函数时的**参数取值**
	例如:
	arg min 就是使后面这个式子达到最小值时的 变量的取值
	arg max 就是使后面这个式子达到最大值时的 变量的取值
	
s.t.:即subject to,意思是受限于...,后面紧跟约束条件

3.闭式解

也叫做 解析解,
闭式解就是一些严格的公式,给出任意的自变量就可以求出其因变量,也就是问题的解
南瓜书中说闭式解是指可以通过具体的表达式解出待解参数

模型介绍

阅读更多
🍉Book-2章-模型评估与选择

🍉Book-2章-模型评估与选择

术语名词

1.泛化误差与经验误差

泛化误差:在“未来”样本上的误差

经验误差:在训练集上的误差,亦称“训练误差”

训练集样本数越接近数据集数量,经验误差就越小。但是经验误差越小,模型效果就越好吗?

请注意,我们是为了得到泛化能力强的模型,而经验误差≠泛化误差

经验误差很小,会使模型学习到训练样本中的许多无用特征,导致泛化能力变弱
我们称其为过拟合(overfitting)

而与之相对的概念,我们称为欠拟合(underfitting),其表示的就是模型没有很好的学习到训练样本上的特征,从而也导致泛化能力变弱

2.过拟合与欠拟合

过拟合:模型在训练数据上表现得过于复杂,以至于在未见过的数据上表现不佳。欠拟合:模型在训练数据上表现得过于简单,无法捕捉到数据的内在结构和模式。

出现原因
1.出现欠拟合的情况,一般是由于样本特征少模型复杂度低

阅读更多
🍉Book-1章-绪论

🍉Book-1章-绪论

本书的使用:


第1章-绪论

计算学习理论

概率近似正确 模型:PAC (Probably Approximate Correct)

公式:$$ P ( | f ( x ) - y | \leq \epsilon ) \geq 1 - \delta$$

其中 f 表示模型,y表示真相,x为样本

公式分析

其中$ | f ( x ) - y | \leq \epsilon$ 用于计算模型的误差,判断模型的优劣

由于模型基于不同的算法和数据是不唯一的

故用$$ P ( … ) \geq 1 - \delta$$ 表示取得该模型的概率

阅读更多
定义类和方法

定义类和方法

对象是实例化的类,所以对象也叫做实例。

一个实例(对象)由 属性 (变量or数据)和 方法 (行为)构成

所以属性和方法叫做对象的 成员

对象的 属性 叫做 成员变量or实例变量(这俩也有点区别)

对象的 方法 叫做 成员方法


在面向对象编程中,成员变量和实例变量通常指的是相同的概念,但它们的使用和含义略有不同,具体取决于上下文:

  1. 成员变量

    • 成员变量是类的一部分,它们定义了类的状态或属性。
    • 每个成员变量都是类的蓝图,用于创建对象时存储数据。
    • 成员变量可以是静态的或非静态的(实例变量)。
  2. 实例变量(非静态变量):

    • 实例变量是成员变量的一种,它们属于类的特定实例(对象)。
    • 每个实例变量的副本都存储在创建的对象中,这意味着每个对象都有自己的实例变量副本。
    • 实例变量的值对于每个对象都是独立的,一个对象的实例变量改变不会影响另一个对象的相应变量。
  3. 静态变量(类变量):

    • 静态变量也是成员变量的一种,但它们不属于任何特定的实例。
    • 静态变量只有单一的副本,所有类的实例共享这个副本。
    • 静态变量通常用于存储类级别的数据,如配置信息或计数器。

以下是一些关键点的对比:

  • 作用域:实例变量属于对象,每个对象都有其独立的副本;静态变量属于类,所有实例共享同一个副本。

  • 生命周期:实例变量随对象的创建而存在,随对象的销毁而消失;静态变量随类的加载而存在,随程序结束或类被卸载而消失。

  • 访问:实例变量可以通过对象的引用访问;静态变量可以通过类名直接访问,也可以通过对象引用访问。

阅读更多
Hexo搭建实遇问题

Hexo搭建实遇问题

1.spawn_failed问题

原因分析:

其实出现这个问题,很大可能是因为https和http的proxy的对应的分别是https和http开proxy server,

而https的proxy server可能无法正常工作。

解决办法:

修改_config.yml文件的deploy部分,将https 修改为http url 或者 设置为git url, 配置为https oauth2 加token

  • 设置为git url(推荐) 亲测有效

1
2
3
4
deploy:
type: git
repo: git@github.com:your_github_id/your_github_id.github.io.git
branch: gh-pages

2.头像无法显示问题

原因分析:

阅读更多