魔のkyo的BLOG

幂模算法

发表于 2022-08-21 更新于 2024-06-09 分类于算法 Valine：本文字数： 2.4k 阅读时长 ≈ 2 分钟

幂模就是求 a^b%m 的问题，a、b、m都是整数，a和b可能很大，a^b会超过整数表示范围，而m在整数范围内的数。

首先我们知道 x * y % m = (x % m) * (y % m) % m（证明略，设x=p_1 m+q_1, y =p_2 m+q_2很容易证明）

这意味着我们可以在计算 a ^ b 的过程中对中间值进行模m操作从而缩小中间值，而这不会影响最终结果。

然后我们可以把指数b分解成二进制，以次算出a^1, a^2, a^4, a^8,… 当b的二进制从最低位算第k位是1的时候，我们就的结果就应该乘入a^(1<<k)。

//思想a^13=a^(1+4+8)=a^1*a^4*a^8
int modExp(int a,int b,int m) {
	int t=1,y=a%m;
	while(b){
		if(b&1){
			t=t*y%m;
		}
		y=y*y%m;
		b=(b>>1);
	}
	return t;
}

这就是快速幂模算法。

我们进一步，如果a更大，本身就超出了int范围，我们用string类型存储，如何快速求出a^b%m呢？

其实很简单，我们可以用一个循环把a转换成整数

int r = 0;
for(int i=0;i<a.size();i++) {
	r  = r * 10 + (a[i]-'0');
}

这个结果当然会导致r超过int表示范围，但是我们在过程的中间值就进行模m操作就可以了

int str2int(const string& a, int m) {
    int r = 0;
    for(int i=0;i<a.size();i++) {
        r  = (r * 10 + (a[i]-'0')) % m;
    }
    return r;
}

int modExp(const string& a, int b, int m) {
    return modExp(str2int(a, m), b, m);
}

在进一步，如果b也更大，本身就超出了int范围，我们用string类型存储，如何快速求出 a^b%m呢？

很自然我们会想能否把b像a一样也在转成int的同时处理成b%m呢？答案是否定的。我们可以用反证法证明：

设上述问题可以先把b处理成b%m，即 a^b%m 和 a^(b%m)%m 相等，易推得 a^m%m=1，因为这里a，b，m都是任取的，所以我们只要找到一个反例不满足 a^m%m=1就可以推得矛盾，我们可以找2^3%3 = 2 != 3，证毕。

实际上我们可以先把b处理成 b%\phi(m) ，其中phi是欧拉函数，phi(m)等于1~m中和m互质的数的个数，我会另开文章讨论欧拉函数，在此先另辟蹊径解决此问题。

\begin{align} &~~~~~a ^ b\\ &= a^{b_0*10^{n-1}+b_1*10^{n-2}+...+b_{n-1}*10^0}, 其中n=len(b), b_i是b的左起第i位数字\\ &= a^{b_0*10^{n-1}}*a^{b_1*10^{n-2}}*...*a^{b_{n-1}*10^0}\\ &= (a^{10^{n-1}})^{b_0}*(a^{10^{n-2}})^{b_1}*...*(a^{10^0})^{b_{n-1}} \end{align}

其中

a^{10^k} = (a ^ {10^{k-1}})^{10}

这样我们就可以倒序遍历b的每位，并在过程中用上式维护a⁽¹⁰k)

int modExp(int a,int b,int m) {
    int t=1,y=a%m;
    while(b){
        if(b&1){
            t=t*y%m;
        }
        y=y*y%m;
        b=(b>>1);
    }
    return t;
}

int str2int(const string& a, int m) {
    int r = 0;
    for(int i=0;i<a.size();i++) {
        r  = (r * 10 + (a[i]-'0')) % m;
    }
    return r;
}

int modExp(const string& a, const string& b, int m) {
    int r = 1;
    int a10k = str2int(a, m);
    for(int i=b.size()-1;i>=0;i--) {
        r = r * modExp(a10k, b[i]-'0', m) % m;
        a10k = modExp(a10k, 10, m);
    }
    return r;
}

还要注意的一点是，m虽然限定在int范围内，但是如果m*m超出了int，则计算过程中的乘法可能会超出int，为了防止溢出我们可以把数据类型换成long long，并且可以用模加来实现模乘来降低溢出的可能。

ll modMul(ll a,ll b,ll m) {
    ll t=0;
    a=(a%m+m)%m;
    b=(b%m+m)%m;
    while(b){
        if(b&1){
            t=(t+a)%m;
        }
        a=(a+a)%m;
        b>>=1;
    }
    return t;
}

ll modExp(ll a,ll b,ll m) {
    ll t=1,y=a%m;
    while(b){
        if(b&1){
            t=modMul(t,y,m);
        }
        y=modMul(y,y,m);
        b=(b>>1);
    }
    return t;
}

小于n的不同数码数的个数

发表于 2022-08-14 更新于 2024-06-09 分类于算法 Valine：本文字数： 1.2k 阅读时长 ≈ 1 分钟


template<typename R, typename T>
R sstream_cast(const T& o) {
    stringstream ss;
    ss << o;
    R result;
    ss >> result;
    return result;
}

// 排列数 n!/(n-k)!
int P(int n,int k)
{
        if(k>n)return 0;
        int res = 1;
        for(int i=n-k+1; i<=n; i++){
            res *= i;
        }
        return res;
}

// 返回小于n的各个数位不同的整数的个数
int countDistinctDigitsNumbers(int n) {
    string s = sstream_cast<string>(n);
    int len = s.size();
    // 分类考虑：
    // 1. 所有位数不足len的数满足条件
    // 2. 首位为 1 ~ s[0]-1 的情况，s[1:len]任意都满足条件
    // 3. 首位为 s[0]，二位为 0 ~ s[1]-1 的情况(但前缀用掉的digit不能再用)，s[2:len]任意都满足条件
    //    ...
    //    前缀为 s[0:i]，第i位为 0 ~ s[i]-1 的情况(但前缀用掉的digit不能再用)，s[i+1:len]任意都满足条件
    //    ...
    //    前缀为 s[0:len-1]，第len-1位为 0 ~s[len-1]-1 的情况(但前缀用掉的digit不能再用)，空后缀

    int result = 0;
    // 第1类：统计任意i位数的个数
    for(int i=1;i<len;i++) {
        result += 9 * P(9, i-1);
    }
    // 第2类
    result += (s[0]-'0'-1) * P(9, len-1);
    // 第3类
    bool used[10] = {0};
    used[s[0]-'0'] = true;
    for(int i=1;i<len;i++) {
        int cnt = 0;
        // 对于cnt的循环计数可以优化，但无必要
        for(int k=0;k<s[i]-'0';k++) {
            if(!used[k]) {
                cnt++;
            }
        }
        result += cnt * P(9-i, len-1-i);

        // 如果s前缀本身用到了重复数字，直接跳出，终止第3类的计算
        if(used[s[i]-'0']) break;
        else used[s[i]-'0'] = true;
    }
    return result;
}

用Python通过SMTP发送邮件

发表于 2022-08-04 更新于 2024-06-09 分类于开发 Valine：本文字数： 2.1k 阅读时长 ≈ 2 分钟

# -*- coding: utf-8 -*-
import traceback
import smtplib
import os
from email.mime.text import MIMEText
from email.mime.multipart import MIMEMultipart
from email.mime.application import MIMEApplication
from email.utils import formataddr as _formataddr

def formataddr(addr):
    return ','.join([_formataddr([a.split("@")[0].strip(), a.strip()]) for a in addr.split(',')])

"""
smtp_server: SMTP服务器地址
from_addr: 发件人地址
to_addr: 收件人地址（多个地址用英文逗号分割）
subject: 邮件主题
content: 邮件内容
attachmentpaths: 附件的文件路径
html: 邮件内容是否是HTML格式
ssl: 使用SMTP_SLL（465端口）还是SMTL（25端口）
"""
def send_email(smtp_server, from_addr, password, to_addr, subject, content, attachmentpaths=[], html=False, ssl=True):
    try:
        msg = MIMEMultipart()
        msg['From'] = formataddr(from_addr)  # 括号里的对应发件人邮箱昵称、发件人邮箱账号
        msg['To'] = formataddr(to_addr)      # 括号里的对应收件人邮箱昵称、收件人邮箱账号
        msg['Subject'] = subject             # 邮件标题
        if html:
            context_part = MIMEText(content, 'html', 'utf-8')
        else:
            context_part = MIMEText(content, 'plain', 'utf-8')
        msg.attach(context_part)

        if attachmentpaths:
            for path in attachmentpaths:
                filedir, filename = os.path.split(path)
                part = MIMEApplication(open(path,'rb').read()) 
                part.add_header('Content-Disposition', 'attachment', filename=filename) 
                msg.attach(part)

        if ssl:
            server=smtplib.SMTP_SSL(smtp_server, 465)
        else:
            server=smtplib.SMTP(smtp_server, 25)  # 发件人邮箱中的SMTP服务器，端口是25
        server.login(from_addr, password)  # 括号中对应的是发件人邮箱账号、邮箱密码
        server.sendmail(from_addr, to_addr.split(','), msg.as_string())
        server.quit()  # 关闭连接
        return True
    except Exception:
        traceback.print_exc()
        return False

if __name__ == '__main__':
    # test

    send_email("smtp.163.com", "kyo_86@163.com", "XXXXXXXXX", "kyo_86@163.com",
                f"测试HTML内容和附件发送",
                """
<html>
<body>
    <img src="http://kyo86.com/images/saber.jpg"/>
</body>
</html>
                """,
                attachmentpaths=[r"./mailer.py"], html=True, ssl=True)

用Python通过IMAP读取邮件

发表于 2022-08-04 更新于 2025-08-07 分类于开发 Valine：本文字数： 6k 阅读时长 ≈ 5 分钟

# -*- coding: utf-8 -*-
import imaplib
imaplib._MAXLINE = 10000000
import email
import email.utils
from email import policy
import re
import os
import pytz
import traceback


def decode(s, charset):
    if type(s) is str:
        return s
    try:
        return s.decode(charset)
    except Exception:
        pass
    try:
        return s.decode('utf-8')
    except Exception:
        pass
    try:
        return s.decode('latin1')
    except Exception as e:
        pass
    return s.decode('gbk')


class Attachment:
    def __init__(self, part):
        self.content_type = part.get_content_type()
        raw_filename = part.get_filename() # .strip()
        # print(dir(part), raw_filename)
        if raw_filename.startswith("=?") and raw_filename.endswith("?="):
            dh = email.header.decode_header(raw_filename)
            self.filename = decode(dh[0][0], dh[0][1])
        else:
            h = email.header.Header(raw_filename)
            dh = email.header.decode_header(h)
            self.filename = decode(dh[0][0], dh[0][1])
        self.data = part.get_payload(decode=True) #下载附件

    def __repr__(self):
        return f"Attachment(content_type='{self.content_type}', filename='{self.filename}', size={len(self.data)})"

    def save_to(self, path):
        if os.path.exists(path):
            if os.path.isdir(path): # 已附件原文件名保存到目录下
                path = os.path.join(path, self.filename)
                with open(path, 'wb') as fp:
                    fp.write(self.data)
            else: # 覆盖已存在文件
                with open(path, 'wb') as fp:
                    fp.write(self.data)
        else: # 新建文件
            with open(path, 'wb') as fp:
                fp.write(self.data)


class Mail:
    def __init__(self, num, msg):
        # 这些字段是在读取邮件列表时就解析的
        self.num = num
        self.subject: str = self._decode_value(msg.get("subject"))
        date = email.utils.parsedate_to_datetime(msg.get("date"))
        if date:
            timezone = pytz.timezone('Asia/Shanghai')
            date = date.astimezone(timezone) # 设置时区为+8区
            date = date.replace(tzinfo=None) # 移除时区信息
        self.date: str = str(date) if date else msg.get("date")

        # 修复：先解码整个头字段再解析地址
        from_header = self._decode_value(msg.get("from"))
        to_header = self._decode_value(msg.get("to"))

        from_name, self.from_addr = email.utils.parseaddr(from_header)
        self.from_name = self._decode_value(from_name)
        to_name, self.to_addr = email.utils.parseaddr(to_header)
        self.to_name = self._decode_value(to_name)

        # 这些字段是延迟到需要访问时才解析的
        self._plain: str = ""
        self._html: str = ""
        self._attachments: list = []

        self._msg: str = msg
        self._parsed: bool = False

    def _decode_value(self, value):
        if value is None:
            return ""
        try:
            # 1. 先解码 RFC 2047 编码部分
            decoded_parts = []
            for part, charset in email.header.decode_header(value):
                if isinstance(part, bytes):
                    # 优先用原始字符集，失败则尝试 UTF-8/GBK
                    try:
                        charset = charset or 'utf-8'
                        decoded = part.decode(charset)
                    except (LookupError, UnicodeDecodeError):
                        try:
                            decoded = part.decode('gbk')
                        except UnicodeDecodeError:
                            decoded = part.decode('utf-8', errors='replace')
                    decoded_parts.append(decoded)
                else:
                    decoded_parts.append(part)
            
            # 2. 合并分段并清理所有多余空格
            full_str = ''.join(decoded_parts)
            # 移除头折叠遗留的换行符和连续空格
            full_str = re.sub(r'\s+', ' ', full_str)  # 合并连续空白
            return full_str.strip()  # 移除首尾空格
            
        except Exception as e:
            print(f"Header decode error: {e}")
            return str(value).strip()  # 返回并清理空格

    @property
    def plain(self):
        # 为了延迟解析邮件内容
        if not self._parsed:
            self.parse_content()
        return self._plain

    @property
    def html(self):
        if not self._parsed:
            self.parse_content()
        return self._html

    @property
    def attachments(self):
        if not self._parsed:
            self.parse_content()
        return self._attachments

    # 解析mail的内容
    def parse_content(self):
        self._attachments = []
        for part in self._msg.walk():
            if part.is_multipart():
                continue
            if part.get_content_type() == "text/plain":
                charset = part.get_content_charset()
                content = decode(part.get_payload(decode=True), charset)
                self._plain = content
            if part.get_content_type() == "text/html":
                charset = part.get_content_charset()
                content = decode(part.get_payload(decode=True), charset)
                self._html = content
            
            if part.get_content_disposition():
                if part.get_content_disposition() == "inline":
                    # HTML内容引用的图片之类的
                    pass
                elif part.get_content_disposition() == "attachment":
                    # 附件
                    self._attachments.append(Attachment(part))
        if self._plain:
            self._html = ""
        self._parsed = True


class ImapMailBox:
    def __init__(self, host, port, username, password):
        self.host = host
        self.port = port
        self.username = username
        self.password = password
        # connecting to host via SSL
        self.conn = imaplib.IMAP4_SSL(host=host, port=port)
        # logging in to servers
        self.conn.login(username, password)

    def get_mail_count(self):
        # Selecting the inbox of the logged in account
        self.conn.select('Inbox')
        state, data = self.conn.search(None, 'ALL')
        mail_list = []
        mails = data[0].split()
        return len(mails)

    def get_mail_list(self, page=1, page_size=50):
        # Selecting the inbox of the logged in account
        self.conn.select('Inbox')
        state, data = self.conn.search(None, 'ALL')
        mail_list = []
        mails = data[0].split()[::-1]
        if page_size:
            mails = mails[(page-1)*page_size: page*page_size]
        for num in mails:
            state, data = self.conn.fetch(num, '(RFC822)')
            raw_email = data[0][1]
            try:
                msg = email.message_from_bytes(raw_email, policy=policy.default)
                mail = Mail(num, msg)
                mail_list.append(mail)
            except Exception as e:
                print(f"Parse raw data failed. [raw_data] '{raw_email}'")
                traceback.print_exc()
        return mail_list

    def mark_as_seen(self, mail):
        self.conn.store(mail.num, '+FLAGS', '\\seen')

if __name__ == '__main__':
    mailbox = ImapMailBox(
        host='imap.aliyun.com', port=993,
        username="******", password="******"
        )
    count = mailbox.get_mail_count()
    # 收件箱里的邮件数
    print(count)
    # 分页获取邮件
    for mail in mailbox.get_mail_list(page=1, page_size=25):
        # 打印 日期、发件人、标题、纯文本内容
        print(mail.date, mail.from_addr, mail.subject, mail.plain)
		
        # 如果有附件，就下载保存到本地
        if mail.attachments:
            for attachment in mail.attachments:
                attachment.save_to("./")

LeetCode模板

发表于 2022-07-24 更新于 2024-11-03 分类于随笔 Valine：本文字数： 12k 阅读时长 ≈ 11 分钟

在LeetCode上提交的C代码并不需要include标准库头文件，判题系统会自动包含，并且在二叉树的题目会额外包含TreeNode结构。我希望有一个简洁的main.cpp可以直接提交到LeetCode，里面包含一些最常用的函数，调试输出的代码放在bits/stdc.h中（故意和标准库头文件同名），通过宏定义只在引入本地自定义的bits/stdc++.h时开启cout输出，这样可以直接把main.cpp的全部内容直接提交到网站条件，会自动屏蔽掉所有调试输出代码而不会报错。

main.cpp

#include "bits/stdc++.h"
using namespace std;

#define all(a) (a).begin(), (a).end()
template<typename T, typename F=less<T>>
using pque=priority_queue<T, vector<T>, F>;
template<typename T, typename F=less<T>>
pque<T, F> make_pque(F cmp) { return pque<T, F>(cmp); }
typedef long long ll;
typedef vector<int> vi;
typedef vector<vi> vvi;
typedef vector<ll> vl;
typedef vector<vl> vvl;
typedef vector<bool> vb;
typedef vector<vb> vvb;
typedef vector<string> vs;
typedef vector<vs> vvs;

template <typename T1, typename T2>
auto max(T1 a, T2 b) -> decltype(a + b) { return a>b?a:b; }
template <typename T1, typename T2>
auto min(T1 a, T2 b) -> decltype(a + b) { return a<b?a:b; }
template <typename T1, typename T2, typename T3>
auto max(T1 a, T2 b, T3 c) -> decltype(a + b + c) { return max(max(a, b), c); }
template <typename T1, typename T2, typename T3>
auto min(T1 a, T2 b, T3 c) -> decltype(a + b + c) { return min(min(a, b), c); }
template <typename T>
T max(const vector<T>& a) {T r = a[0]; for(auto e : a) r = max(r, e); return r;}
template <typename T>
T min(const vector<T>& a) {T r = a[0]; for(auto e : a) r = min(r, e); return r;}
template<typename T>
T sum(const vector<T>& a) { T r = 0; for(auto& e : a) r+=e; return r;}
template<typename T>
T gcd(T a, T b) { while(b) { T r = a%b; a = b; b = r;} return a;}
template<typename T>
T lcm(T a, T b) { return a/gcd(a,b)*b; }
template<typename F>
ll lb(ll b, ll e, F f) {if(b>=e) return e; while(b<e-1) {auto m=b+(e-1-b)/2; if(!f(m)) b=m+1; else e=m+1;} return f(b)?b:e;}
template<typename F>
ll ub(ll b, ll e, F f) {return lb(b, e, [&](ll i){return !f(i);});}

template<typename T>
struct cast_helper {T operator() (stringstream& ss) {T r=T{}; ss >> r; return r;}};
template<>
struct cast_helper<string> {string operator() (stringstream& ss) { return ss.str();}};
template<typename R, typename T>
R sstream_cast(const T& o) {stringstream ss; ss << o; return cast_helper<R>()(ss);}
string format(const char* f, ...){va_list a; va_start(a, f); char b[4096]; vsnprintf(b, 4096, f, a); va_end(a); return b;}
template<typename T>
unordered_map<T, int> counter(const vector<T>& a) {unordered_map<T, int> r;for(auto e : a) ++r[e];return r;}
unordered_map<char, int> counter(const string& a) {unordered_map<char, int> r;for(auto e : a) ++r[e];return r;}
template<typename I>
vector<I> range(I b, I e) {vector<I> r(e-b);iota(all(r), b);return r;}

vvi make_vvi(int n, int m, int v=0) { return vvi(n, vi(m, v));}
vvb make_vvb(int n, int m, bool v=false) { return vvb(n, vb(m, v));}
vvs make_vvs(int n, int m, const string& v="") { return vvs(n, vs(m, v));}
typedef tuple<int, int> tii;
typedef tuple<ll, ll> tll;
typedef tuple<int, int, int> tiii;
#define _0(o) get<0>(o)
#define _1(o) get<1>(o)
#define _2(o) get<2>(o)
namespace std {
template<>struct hash<tii>{size_t operator()(const tii& a)const {return _0(a)^_1(a);}};
template<>struct hash<tiii>{size_t operator()(const tiii& a)const {return _0(a)^_1(a)^_2(a);}};
};
tii dir4[] = {tii(-1, 0), tii(0, 1), tii(1, 0), tii(0,-1)};
tii dir8[] = {tii(-1, 0), tii(0, 1), tii(1, 0), tii(0,-1), tii(-1,-1), tii(-1,1), tii(1,1), tii(1,-1)};
tii& operator += (tii& a, const tii& b) { _0(a)+=_0(b); _1(a)+=_1(b); return a; }
tii operator + (const tii& a, const tii& b) { return tii(_0(a)+_0(b), _1(a)+_1(b)); }
tii& operator -= (tii& a, const tii& b) { _0(a)-=_0(b); _1(a)-=_1(b); return a; }
tii operator - (const tii& a, const tii& b) { return tii(_0(a)-_0(b), _1(a)-_1(b)); }
tii operator - (const tii& a) { return tii(-_0(a), -_1(a)); }
tii& operator *= (tii& a, int k) { _0(a)*=k; _1(a)*=k; return a; }
tii operator * (int k, const tii& a) { return tii(k*_0(a), k*_1(a)); }
tii operator * (const tii& a, int k) { return tii(_0(a)*k, _1(a)*k); }
tii& operator /= (tii& a, int k) { _0(a)/=k; _1(a)/=k; return a; }
tii operator / (const tii& a, int k) { return tii(_0(a)/k, _1(a)/k); }
bool in_range(tii p, tii e) {return 0<=_0(p)&&_0(p)<_0(e)&&0<=_1(p)&&_1(p)<_1(e);}
bool in_range(tii p, tii b, tii e) {return _0(b)<=_0(p)&&_0(p)<_0(e)&&_1(b)<=_1(p)&&_1(p)<_1(e);}

constexpr int INF = 1e9+7;
constexpr int MOD = 1e9+7;

#ifndef cout
struct _ {
    template <typename T>
    _& operator << (const T&){ return *this; }
};
#define cout _()
#define endl '\n'
#endif


int _main_()
{
    
    return 0;
}

#undef cout
#undef endl

一定要在结尾undef掉，不然会导致LeetCode误判

bits/stdc++.h

// #include <bits/stdc++.h>
#include <iostream>
#include <list>
#include <vector>
#include <stack>
#include <queue>
#include <string>
#include <cstring>
#include <cstdlib>
#include <set>
#include <map>
#include <tuple>
#include <sstream>
#include <fstream>
#include <algorithm>
#include <functional>
#include <numeric>
#include <iomanip>
#include <thread>
#include <chrono>
#include <unordered_set>
#include <unordered_map>
#include <bitset>
#include <cassert>
#include <cmath>
#include <cstdarg>
using namespace std;

template<typename T>
T _s(const T& t) {return t;}
string _s(const string& t) {return '"'+ t + '"';}

template<typename T1, typename T2>
ostream& operator << (ostream& out, const pair<T1, T2>& o) {
    return out << "(" << o.first << ", " << o.second << ")";
}

template<typename T>
ostream& operator << (ostream& out, const vector<T>& v) {
    out << "[";
    for(int i=0;i<v.size();i++) {
        out << _s(v[i]) << (i != v.size() -1 ? ", " : "");
    }
    return out << "]";
}

template<typename T>
ostream& operator << (ostream& out, const vector<vector<T>>& v) {
    out << "[";
    for(int i=0;i<v.size();i++) {
        out << (i!=0?" ":"") << "[";
        for(int j=0;j<v[i].size();j++) {
            out << setw(5) << _s(v[i][j]) << (j != v[i].size() -1 ? ", " : "");
        }
        out << "]" << (i != v.size() -1 ? ",\n" : "");
    }
    return out << "]";
}

template<typename TK, typename TV>
ostream& operator << (ostream& out, const map<TK,TV>& m) {
    out << "{";
    auto itr=m.begin();
    if(itr != m.end()) {
        out << *itr;
        for(itr++;itr!=m.end();itr++) {
            out << ", " << *itr;
        }
    }
    return out << "}";
}

template<typename TK, typename TV>
ostream& operator << (ostream& out, const multimap<TK,TV>& m) {
    out << "{";
    auto itr=m.begin();
    if(itr != m.end()) {
        out << *itr;
        for(itr++;itr!=m.end();itr++) {
            out << ", " << *itr;
        }
    }
    return out << "}";
}

template<typename TK, typename TV>
ostream& operator << (ostream& out, const unordered_map<TK,TV>& m) {
    out << "{";
    auto itr=m.begin();
    if(itr != m.end()) {
        out << *itr;
        for(itr++;itr!=m.end();itr++) {
            out << ", " << *itr;
        }
    }
    return out << "}";
}

template<typename T>
ostream& operator << (ostream& out, const set<T>& m) {
    out << "{";
    auto itr=m.begin();
    if(itr != m.end()) {
        out << *itr;
        for(itr++;itr!=m.end();itr++) {
            out << ", " << *itr;
        }
    }
    return out << "}";
}

template<typename T>
ostream& operator << (ostream& out, const multiset<T>& m) {
    out << "{";
    auto itr=m.begin();
    if(itr != m.end()) {
        out << *itr;
        for(itr++;itr!=m.end();itr++) {
            out << ", " << *itr;
        }
    }
    return out << "}";
}

template<typename T>
ostream& operator << (ostream& out, const unordered_set<T>& m) {
    out << "{";
    auto itr=m.begin();
    if(itr != m.end()) {
        out << *itr;
        for(itr++;itr!=m.end();itr++) {
            out << ", " << *itr;
        }
    }
    return out << "}";
}

template <size_t N>
struct PrintHelper;

template <>
struct PrintHelper<1>
{
    template<typename... Args>
    static void recursive_print(ostream& out, const tuple<Args...> t)
    {
        out << "(" << std::get<0>(t) << ", ";
    }
};

template <size_t N>
struct PrintHelper
{
    template<typename... Args>
    static void recursive_print(ostream& out, const tuple<Args...> t)
    {
        PrintHelper<N - 1>::recursive_print(out, t);
        out << std::get<N - 1>(t) << ", ";
    }

    template<typename... Args>
    static void print(ostream& out, const tuple<Args...> t)
    {
        PrintHelper<N - 1>::recursive_print(out, t);
        out << std::get<N - 1>(t) << ")";
    }
};

template <typename... Args>
ostream& operator << (ostream& out, const tuple<Args...> t)
{
    PrintHelper<tuple_size<decltype(t)>::value >::print(out, t);
    return out;
}

template<typename T>
struct _cast_helper
{
    T operator() (stringstream& ss) {
        T result;
        ss >> result;
        return result;
    }
};

template<>
struct _cast_helper<string>
{
    string operator() (stringstream& ss) {
        return ss.str();
    }
};

template<typename R, typename T>
R _sstream_cast(const T& o) {
    stringstream ss;
    ss << o;
    return _cast_helper<R>()(ss);
}

template<typename T>
vector<T> split(const string& s, const string& delim, const string& stripchars="", bool drop_empty=false) {
    vector<T> result;
    int b = 0;
    int e = 0;
    int i = b;
    int state = 0;
    do {
        bool isspace = (stripchars.find(s[i]) != -1);
        bool isdelim = (s[i]=='\0' || delim.find(s[i]) != -1);
        if(isdelim) {
            if(e != b || !drop_empty) {
                result.emplace_back(_sstream_cast<T>(string(&s[b], &s[e])));
            }
            state = 0;
            e = b = i + 1;
        } else if(isspace) {
            if(state == 0) {
                e = b = i + 1;
            }
        } else {
            state = 1;
            e = i + 1;
        }
        if(s[i]=='\0') break;
        i++;
    } while(true);
    return result;
}

typedef vector<int> vi;
typedef vector<vi> vvi;
vi make_vi(const string& s) {return split<int>(s, ",", "[] ", true);}
vvi make_vvi(const string& s) { vvi r; for(auto e : split<string>(s, "[]", ", ", true)) r.emplace_back(make_vi(e)); return r;}

/**
 * Definition for singly-linked list.
 */
struct ListNode {
    int val;
    ListNode *next;
    ListNode() : val(0), next(nullptr) {}
    ListNode(int x) : val(x), next(nullptr) {}
    ListNode(int x, ListNode *next) : val(x), next(next) {}
};

/**
 * Definition for a binary tree node.
 */
struct TreeNode {
    int val;
    TreeNode *left;
    TreeNode *right;
    TreeNode(int x) : val(x), left(NULL), right(NULL) {}
};


#define cout cout

int _main_();
int main() {
    std::thread th1([](){this_thread::sleep_for(chrono::seconds(3));cerr << "!!!Timeout!!!" << endl;exit(1);});
    th1.detach();
    return _main_();
}

斐波那契数列

发表于 2022-07-07 更新于 2024-06-09 分类于数学 Valine：本文字数： 1.1k 阅读时长 ≈ 1 分钟

今天在B站看到一个视频《斐波那契数列，全网最优解》，UP主给出了求解斐波那契数列通项公式的推导思路。

因为我早年也对这种数列有过研究，而且记得一个更简单的解法，所以记录一下。

斐波那契数列是这样一种数列：

a(1) = a(2) = 1

a(n) = a(n-1) + a(n-2), n>=2

上面是通过递推公式的形式给出的定义，我们注意到递推公式是前两项的线性组合。而线性变换可以通过矩阵表示，我们不妨转换思路来求向量

(a_n, a_{n+1})

的通项公式

我们写出根据a(n-1), a(n)推得a(n), a(n+1)的递推公式

\begin{cases} a_n = a_n \\ a_{n+1} = a_{n-1} + a_n \end{cases}

写成矩阵的形式

\begin{pmatrix}a_n & a_{n+1} \\ \end{pmatrix} = \begin{pmatrix}a_{n-1} & a_n \\ \end{pmatrix} \begin{bmatrix}0 & 1 \\ 1 & 1\\ \end{bmatrix}

我们可以看到这就类似等比数列的递推公式，只不过公比q是个矩阵，等比数列通项公式是

a_n = a_1 * q^{n-1}

类比得到，上面递推公式的通项公式

\begin{pmatrix}a_n & a_{n+1} \\ \end{pmatrix} = \begin{pmatrix}a_1 & a_2 \\ \end{pmatrix} \begin{bmatrix}0 & 1 \\ 1 & 1\\ \end{bmatrix}^{n-1} = \begin{pmatrix}1 & 1 \\ \end{pmatrix} \begin{bmatrix}0 & 1 \\ 1 & 1\\ \end{bmatrix}^{n-1}

BTW: 其实这里矩阵和数还是有点区别的，要利用矩阵乘法有结合律（本来是先做向量和矩阵乘法的，通项公式是先做了后面的矩阵乘法最后再让向量左乘矩阵），而且是方阵才能求幂，而这里都是满足的。

对于斐波那契数列的变形也特别容易推导，无论是改变首项还是改变递推关系，包括把两项和变成前n项的线性组合，只要还是线性的，就可以这么推导。

驼峰和下划线命名风格互转

发表于 2022-07-06 更新于 2024-06-09 分类于开发 Valine：本文字数： 682 阅读时长 ≈ 1 分钟

之前用在SQLAlchemy的ORM模型的类名（驼峰风格）和数据库表名（下划线风格）的转换。

Python类名驼峰风格这个不用解释，数据库表名使用下划线风格主要是因为一些数据库系统如果使用了带大写字母的表名，那么在select、insert、update、delete语句中都要用特殊分割符包住表名才能使用，很麻烦。

# 驼峰转下划线
def hump_to_underline(name, drop_first_underline=True):
    result = re.sub(r'([A-Z])', r'_\1', name).lower()
    if drop_first_underline and result[0] == '_':
        result = result[1:]
    return result    

# 下划线转驼峰
def underline_to_hump(name, capitalize_first_letter=True):
    ret = ""
    i = 0
    while i < len(name):
        if name[i] == '_' and i+1 < len(name) and name[i+1] != '_':
            i += 1
            ret += name[i].upper()
        else:
            ret += name[i]
        i += 1
    if capitalize_first_letter:
        return ret[0].upper()+ret[1:]
    else:
        return ret

Python Upserter

发表于 2022-07-05 更新于 2024-06-09 分类于开发 Valine：本文字数： 9.8k 阅读时长 ≈ 9 分钟

基于SQLAlchemy的Upserter，当时是基于SQLAlchemy写的，不过最后似乎没怎么用到SQLAlchemy的特性，只是取了一下数据库的类型。

# -*- coding: utf-8 -*-

import math
import datetime
import numpy as np
import pandas as pd
import sqlalchemy
import decimal
from sqlalchemy import text
from sqlalchemy.orm import sessionmaker
from contextlib import contextmanager

'''
engine: SQLAlchemy Engine
buffer_size: 缓存条目数，当缓存满时自动flush
update_on_duplicate: 当唯一键重复时的行为，默认是update，设置为False表示不更新，即忽略插入失败。
'''
def create_upserter(engine, buffer_size=5000, update_on_duplicate=True, dummy=False):
    if dummy:
        return DummyUpserter(engine)
    if engine.dialect.name.lower().find("mysql") != -1:
        return MySQLUpserter(engine, buffer_size, update_on_duplicate)
    elif engine.dialect.name.lower().find("postgresql") != -1:
        return PSQLUpserter(engine, buffer_size, update_on_duplicate)
    else:
        print(f"没有为{engine.dialect.name}实现特殊的Upsert，使用默认版本，请确认可以正常工作，建议特化一个专门版本")
        return UpserterBase(engine, buffer_size, update_on_duplicate)


def is_duplicate_key(e):
    for T in UpserterBase.__subclasses__():
        if T.is_duplicate_key(e):
            return True
    return UpserterBase.is_duplicate_key(e)


'''
class Upserter:

    # 传入的engine类型应该和使用的Upserter支持的数据库类型相匹配
    # buffer_size表示插入或更新数据缓存到多少才flush(即向数据库插入或更新)，None表示在析构时flush，0表示不缓存
    # update_on_duplicate当唯一键重复时的行为，默认是update，设置为False表示不更新，即忽略插入失败。
    def __init__(self, engine, buffer_size=None, update_on_duplicate=True):
        pass

    # tablename为数据库表名
    # pk为主键的元组，可以不是真正的表主键，但是可以用来判重决定insert还是update，例如('exchange_id', 'trade_id')
    # data为单条数据，dict的形式，例如{'exchange_id': 'DCE', 'trade_id': '  1', 'price': 1.2, 'volume': 1}
    def upsert(self, tablename, pk, data):
        pass

    # 立即把缓冲器的数据推到数据库，会在buffer_size满了或者析构时自动调用，也可以手动调用
    def flush(self):
        pass
'''
class UpserterBase:
    def __init__(self, engine, buffer_size=None, update_on_duplicate=True, field_quote_mark=''):
        self.engine = engine
        self.session_maker = sessionmaker(expire_on_commit=False)
        self.session_maker.configure(bind=engine)
        self.tablename2pk = {}
        self.tablename2datas = {}
        self.buffer_size = buffer_size
        self.update_on_duplicate = update_on_duplicate
        self.field_quote_mark = field_quote_mark

    def __del__(self):
        self.flush()

    @contextmanager
    def session_scope(self):
        session = self.session_maker()
        try:
            yield session
            session.commit()
        except Exception:
            session.rollback()
            raise
        finally:
            session.close()

    def flush(self):
        for (tablename, pk) in self.tablename2pk.items():
            datas = self.tablename2datas[tablename]
            if len(datas) > 0:
                with self.session_scope() as session:
                    self._flush(session, tablename, pk, datas)
                self.tablename2datas[tablename] = []

    def _gen_batch_insert_sql(self, tablename, datas):
        quote_mark = self.field_quote_mark
        columns = datas[0].keys()
        # ex: INSERT INTO tablename(`field1`, `field2`, `field3`) VALUES
        sql = f"""INSERT INTO {tablename}({quote_mark}{f"{quote_mark}, {quote_mark}".join(columns)}{quote_mark}) VALUES\n"""
        for i, data in enumerate(datas):
            if i != len(datas) - 1:
                sql += f"""  ({self._format_values(data.values())}),\n"""
            else:
                sql += f"""  ({self._format_values(data.values())});\n"""
        return sql

    def _flush(self, session, tablename, pk, datas):
        sql = self._gen_batch_insert_sql(tablename, datas)
        try:
            session.execute(text(sql))
        except sqlalchemy.exc.IntegrityError as e:
            if self.is_duplicate_key(e):
                # 插入遇到重复KEY
                if len(datas) <= 500:
                    for data in datas:
                        self.upsert_one(session, tablename, pk, data)
                else:
                    l = len(datas)
                    p = int(l // 2)
                    self._flush(session, tablename, pk, datas[:p])
                    self._flush(session, tablename, pk, datas[p:])
            else:
                raise e

    def upsert_one(self, session, tablename, pk, data):
        quote_mark = self.field_quote_mark
        r = None
        if self.update_on_duplicate:
            update_str = self._format_update_values(pk, data)
        if self.update_on_duplicate and update_str.strip():
            r = session.execute(text(f"UPDATE {tablename} SET {update_str} WHERE {self._format_update_conditions(pk, data)}"))
        if not r or r.rowcount == 0:
            try:
                r = session.execute(text(
                    f"INSERT INTO {tablename}({quote_mark}{f'{quote_mark}, {quote_mark}'.join(data.keys())}{quote_mark}) VALUES ({self._format_values(data.values())})"
                    ))
            except sqlalchemy.exc.IntegrityError as e:
                if self.is_duplicate_key(e):
                    pass
                else:
                    raise e

    @staticmethod
    def is_duplicate_key(e):
        if type(e) != sqlalchemy.exc.IntegrityError:
            return False
        return (str(e.orig).lower().find("duplicate") != -1)

    def _isinf(self, x):
        return x>=9223372036854775807 or x<=-9223372036854775808

    def _format_value(self, v):
        if v is None:
            return "null"
        elif type(v) == float or type(v) == decimal.Decimal:
            if math.isnan(v) or math.isinf(v) or self._isinf(v):
                return "null"
            else:
                return f"{v}"
        elif type(v) == int:
            if self._isinf(v):
                return "null"
            else:
                return f"{v}"
        elif type(v) == datetime.datetime:
            return "'"+v.strftime("%Y-%m-%d %H:%M:%S")+"'"
        elif type(v) == datetime.date:
            return "'"+v.strftime("%Y-%m-%d")+"'"
        elif type(v) == pd.Timestamp:
            return "'"+v.strftime("%Y-%m-%d %H:%M:%S")+"'"
        elif type(v) == str:
            return repr(v).replace(r'%',r"%%")  # 可以解决字符串包含'"%
        else:
            return repr(f'{v}').replace(r'%',r"%%")

    def _format_values(self, data):
        s = ''
        for i, e in enumerate(data):
            s += self._format_value(e)
            s += ', '
        return s[:-2]

    def _format_update_values(self, pk, data):
        s = ''
        for i, (k, v) in enumerate(data.items()):
            if k not in pk:
                s += f"{self.field_quote_mark}{k}{self.field_quote_mark}={self._format_value(v)}, "
        return s[:-2]

    def _format_update_conditions(self, pk, data):
        s = ''
        for i, (k, v) in enumerate(data.items()):
            if k in pk:
                s += f"{self.field_quote_mark}{k}{self.field_quote_mark}={self._format_value(v)} and "
        return s[:-4]

    def upsert(self, tablename, pk, data):
        if self.buffer_size is not None and self.buffer_size == 0:
            with self.session_scope() as session:
                self.upsert_one(session, tablename, pk, data)
        else:
            if pk:
                self.tablename2pk[tablename] = pk
            if tablename not in self.tablename2datas:
                self.tablename2datas[tablename] = []
            self.tablename2datas[tablename].append(data)

            if self.buffer_size is not None and len(self.tablename2datas[tablename]) >= self.buffer_size:
                with self.session_scope() as session:
                    self._flush(session, tablename, self.tablename2pk[tablename], self.tablename2datas[tablename])
                self.tablename2datas[tablename] = []

    def upsert_dataframe(self, tablename, pk, df):
        for index, row in df.iterrows():
            self.upsert(tablename, pk, row.to_dict())


class MySQLUpserter(UpserterBase):
    def __init__(self, engine, buffer_size=None, update_on_duplicate=True):
        super().__init__(engine, buffer_size, update_on_duplicate, field_quote_mark='`')

    def __del__(self):
        super().__del__()

    @staticmethod
    def is_duplicate_key(e):
        if type(e) != sqlalchemy.exc.IntegrityError:
            return False
        if len(e.orig.args) > 1 and str(e.orig.args[1]).startswith("Duplicate entry"):
            return True
        return False

    def upsert_one(self, session, tablename, pk, data):
        if self.update_on_duplicate:
            update_str = self._format_update_values(pk, data)
        if self.update_on_duplicate and update_str.strip():
            sql = f"""INSERT INTO {tablename}(`{"`, `".join(data.keys())}`) VALUES
      ({self._format_values(data.values())})
      ON DUPLICATE KEY UPDATE {update_str}\n"""
        else:
            sql = f"""INSERT INTO {tablename}(`{"`, `".join(data.keys())}`) VALUES
      ({self._format_values(data.values())})
      ON DUPLICATE KEY UPDATE `{pk[0]}`=VALUES(`{pk[0]}`)\n"""
        session.execute(text(sql))


class PSQLUpserter(UpserterBase):
    def __init__(self, engine, buffer_size=None, update_on_duplicate=True):
        super().__init__(engine, buffer_size, update_on_duplicate, field_quote_mark='"')

    def __del__(self):
        super().__del__()

    @staticmethod
    def is_duplicate_key(e):
        if type(e) != sqlalchemy.exc.IntegrityError:
            return False
        if str(e.orig).startswith("duplicate key"):
            return True
        return False

    def upsert_one(self, session, tablename, pk, data):
        if self.update_on_duplicate:
            update_str = self._format_update_values(pk, data)
        if self.update_on_duplicate and update_str.strip():
            sql = f"""INSERT INTO {tablename}("{'", "'.join(data.keys())}") VALUES
      ({self._format_values(data.values())})
      on conflict ("{'", "'.join(pk)}")
      do update set {update_str}\n"""
        else:
            sql = f"""INSERT INTO {tablename}("{'", "'.join(data.keys())}") VALUES
      ({self._format_values(data.values())})
      on conflict ("{'", "'.join(pk)}")
      do nothing\n"""
        session.execute(text(sql))


class DummyUpserter(UpserterBase):
    def __init__(self, engine):
        super().__init__(engine)

    def upsert(self, tablename, pk, data):
        pass

    def upsert_one(self, session, tablename, pk, data):
        pass

    def upsert_dataframe(self, tablename, pk, df):
        pass

std::priority_queue + lambda表达式 + decltype

发表于 2022-06-29 更新于 2024-06-09 分类于开发 Valine：本文字数： 2.8k 阅读时长 ≈ 3 分钟

std::priority_queue

std::priority_queue 是C++标准库提供的优先队列（最大堆）实现，位于头文件

默认情况下要求元素有“小于”运算，取堆顶，返回最大值。

可以通过模板参数调整排序方式让其返回最小值，或者为自定义类型定义排序方式。

1 2	template <class T, class Container = vector<T>, class Compare = less<typename Container::value_type> > class priority_queue;

模板参数：

T是数据类型

Container是维护最大（小）堆使用的容器类型

Compare是一个function object的类型，定义了排序方式

什么是function object？

function object是一种对象，这个对象的类重载了括号运算符，也就是 operator() ，所以这个对象可以使用 obj(…)，看上去就像在调用一个function一样。

使用比较器类定义优先队列

#include <queue>
#include <vector>
using namespace std;

struct Student { // 学生
    int id; // 学号
    int height; // 身高
};

int main()
{
    // 定义比较器
    struct Cmp {
        bool operator() (const Node& a, const Node& b) {
            return a.height < b.height;
        }
    };
    // 定义优先队列
    priority_queue<Student, vector<Student>, Cmp> PQ;
}

使用lamda表达式排序

vector<Student> students = {...};
std::sort(students.begin(), students.end(), [](const Student& a, const Student& b){
	return a.height < b.height;
});

// 等价的
std::sort(students.begin(), students.end(), Cmp());

使用lambda表达式的好处是让“比较方法的描述”接近sort的调用，无论从编写还是阅读都是更好的。

使用lambda表达式的坏处是，不方便复用比较方法。

使用lamda表达式定义优先队列

实际上priority_queue有一个构造函数，可以传递一个比较对象，如果不传递就会用模板参数定义默认的比较对象。

1	explicit priority_queue (const Compare& comp = Compare(), Container&& ctnr = Container());

我们可以通过构造函数参数传递一个lambda表达式定义比较方式，我们期望的定义优先队列的方式是

1
2
3

priority_queue<Node> PQ([](const Node& a, const Node& b) {
    return a.height < b.height;
});

但是很遗憾，我们并不能这样定义，这会导致编译错误，原因是我们在模板参数仅传递了数据类型T，而没有传递Compare，因此Compare使用了默认的less，而我们传递的lambda表达式显然不是less类型，因此不符合构造函数的参数要求。

使用decltype获取lambda表达式类型

因此我们不得不传递Compare为我们定义的lambda表达式的类型，这里可以使用 decltype 关键字，这个关键字直到C++11才被引入。

// 通过lambda表达式定义序
auto cmp = [](const Node& a, const Node& b) {
    return a.height < b.height;
};
priority_queue<Node, vector<Node>, decltype(cmp)> PQ(cmp);

看上去和通过定义比较器定义优先队列似乎差不多，实际上lambda表达式的魅力在于可以访问当前上下文中的其他变量。

例如：假设我们有一个 vector<Student>存储着学生信息，我们想定义一个存储学号的优先队列priority_queue，依然按照身高对其中学号排序

vector<Student> students = {...};
unordered_map<int, Student> id2stu;
for(auto& stu: students) {
	id2stu[stu.id] = stu;
}

// 我们可以很方便地把id2stu绑定到lambda表达式中用来排序
auto cmp = [&](int a, int b) {
    return id2stu[a].height < id2stu[b].height;
};
priority_queue<int, vector<int>, decltype(cmp)> PQ(cmp);

如果用定义比较器类的方式则需要通过构造函数传递id2stu的引用，然后绑定给成员变量。

vector<Student> students = {...};
unordered_map<int, Student> id2stu;
for(auto& stu: students) {
	id2stu[stu.id] = stu;
}

struct Cmp {
    const unordered_map<int, Student>& id2stu;
	Cmp(const unordered_map<int, Student>& id2stu) : id2stu(id2stu) {}
    bool operator() (int a, int b) const {
	    return id2stu[a].height < id2stu[b].height;
    }
};
priority_queue<int, vector<int>, Cmp> PQ;

本质是一样的，但是写法有些累赘。

KMP（快速子串查找）

发表于 2022-06-26 更新于 2024-06-09 分类于算法 Valine：本文字数： 2.1k 阅读时长 ≈ 2 分钟

问题：在字符串s中查找字符串p首次出现的位置。

正常情况下对s和p进行匹配的最坏时间复杂度是O(len(s)*len(p))，我们用i,j分别从s,p的头部进行匹配，每次匹配失败我们回退j到0，i+=1，进行下一轮匹配。

int find(const string& s, const string& p) {
    for(int i=0;i<=s.size()-p.size();i++) {
        int j=0; // 每次j都从0开始
        for(;j<p.size();j++) {
            if(s[i+j] != p[j]) break;
        }
        if(j == p.size())return i;
        // 如果当前以i开始的字串不匹配，则从i+1继续尝试
    }
    return -1;
}

KMP的思想就是预处理p得到next数组，保证i不回退，next就是预先算出i不回退的情况下j应该回退到哪，这样算法复杂度就降到了O(len(s)+len(p)) 也就是 O(len(s))。

有时候模式串是固定的，需要重复在不同的串中查找模式串，所以next数组也可以预先算好一直复用。

// 计算next数组，即j不匹配时的回退位置
vector<int> compute_next(const string& p){
    vector<int> next(p.size(), 0);
    for(int i=2; i<p.size(); i++){
        int j = next[i-1];
        while(p[i-1] != p[j] && j>0)
            j = next[j];
        if(p[i-1]==p[j])
            next[i] = j+1;
        else
            next[i] = 0;
    }
    return move(next);
}

//串匹配的KMP算法
//返回s中第一个与p匹配的子串的起始下标，若找不到则返回-1
int find(const string& s, const string& p, const vector<int>* pnext=NULL) {
    vector<int> _next;
    if(pnext == NULL) {
        _next = compute_next(p);
        pnext = &_next;
    }
    const vector<int>& next(*pnext);
    int i = 0, j = 0;
    while(s[i] && p[j]){
        if(s[i] == p[j]){
            ++i;
            ++j;
        }
        else {
            if(j==0) ++i; // 第一个字符就不匹配，直接后移i
            else if(p[j]==0) break; // p[j] 表示找到了匹配，跳出循环
            else j = next[j]; // 这里就是利用预处理好的next来回退j，而i不用变
        }
    }
    if(p[j]==0) return i-j;
    else return -1;
}

有了next数组后的匹配就想前面说的，只要根据next进行回退就可以了，没有过多技巧。

那么主要讲一下next数组的生成思路，根据next的定义，其实next[i]表示的是p[i]前面最长能有多少字符和p的开头匹配

例如：我们生成 "aabaaab"的next数组，考察next[4]和next[5]，p[4]的前面最长有“a”和p的开头匹配，所以next[4]=1，

p[5]的前面最长有“aa”和p的开头匹配，所以next[5]=2。

0123456
aabaaab
-  -↑
aabaaab
-- --↑

总有next[0] = next[1] = 0，我们只要从下标2开始计算next。

对于next[i]，我们可以采用数学归纳法的思维，我们找到i-1回退的位置，取j = next[i-1]，如果p[i-1]==p[j]，那么显然next[i] = next[i-1] + 1，如果p[i-1]!=p[j]呢，next[i]=0吗？并不是

我们还是以 aabaaab 为例，考察next[6]，首先我们算出了next[0…5]=[0, 0, 1, 0, 1, 2]，而p[5] !=p[2] (‘a’ != ‘b’)

0123456
aabaaab
-- --↑
aabaaab
--  --↑

这里就有个技巧了，对于p[i-1]和p[j]不匹配时，我们想知道让j回退多少，我们可以利用next数组的含义，尝试让j回退到next[j]，再看看p[i-1]和p[j]是否相等，我们在生成next的时候就用到了规模更小的next，还是数学归纳法的思维，j=next[5]=2, 因为p[5]!=p[2] ,令j=next[j]=next[2]=1,而p[5]==p[1]，所以next[6] = next[1] + 1 = 2，大致的理解思路就是这样，严格的证明见：前缀函数与 KMP 算法 - OI Wiki (oi-wiki.org)