表达式求值

发表于 2024-12-17 更新于 2025-01-15 分类于开发 Valine：本文字数： 4.3k 阅读时长 ≈ 4 分钟
import re

class Token:
    def __init__(self, type, value):
        self.type = type
        self.value = value


def tokenize(expression):
    # 词法规则
    token_specification = [
        ('STOCKSET', r'(ALL|[0-9a-zA-Z]+\.[0-9a-zA-Z]+)'),  # 股票集，指数代码或自定义股票组代码
        ('PLUS', r'\+'),  # 匹配加号
        ('MINUS', r'-'),  # 匹配减号
        ('INTERSECT', r'\&'),  # 匹配&
        ('LPAREN', r'\('),  # 匹配左括号
        ('RPAREN', r'\)'),  # 匹配右括号
        ('WS', r'\s+'),  # 匹配空格，忽略
    ]
    tok_regex = '|'.join('(?P<%s>%s)' % pair for pair in token_specification)
    token_list = []
    for mo in re.finditer(tok_regex, expression):
        kind = mo.lastgroup
        value = mo.group()
        if kind == 'WS':
            continue  # 忽略空格
        token_list.append(Token(kind, value))
    return token_list


class ASTNode:
    def __init__(self, type, value=None, left=None, right=None):
        self.type = type
        self.value = value
        self.left = left
        self.right = right


def parse_expression(tokens):

    def _parse_expression(tokens):
        node = _parse_term(tokens)
        while tokens and (tokens[0].type in ('PLUS', 'MINUS')):
            op = tokens.pop(0).type
            right = _parse_term(tokens)
            node = ASTNode(op, left=node, right=right)

        return node

    def _parse_term(tokens):
        node = _parse_factor(tokens)
        while tokens and (tokens[0].type in ('INTERSECT',)):
            op = tokens.pop(0).type
            right = _parse_factor(tokens)
            node = ASTNode(op, left=node, right=right)
        return node

    def _parse_factor(tokens):
        if not tokens:
            raise SyntaxError("Invalid syntax")
        if tokens[0].type == 'STOCKSET':
            value = tokens.pop(0).value
            return ASTNode('STOCKSET', value=value)
        elif tokens[0].type == 'LPAREN':
            tokens.pop(0)  # 去掉左括号
            node = _parse_expression(tokens)
            if not tokens or tokens[0].type!= 'RPAREN':
                raise SyntaxError("Invalid syntax")
            tokens.pop(0)  # 去掉右括号
            return node
        else:
            raise SyntaxError("Invalid syntax")

    ret = _parse_expression(tokens)
    if len(tokens):
        raise SyntaxError("Invalid syntax")
    return ret

    
def evaluate_ast(node, code2set):
    if node.type == 'STOCKSET':
        return code2set(node.value)
    elif node.type == 'PLUS':
        return evaluate_ast(node.left, code2set).union(evaluate_ast(node.right, code2set))
    elif node.type == 'MINUS':
        return evaluate_ast(node.left, code2set) - evaluate_ast(node.right, code2set)
    elif node.type == 'INTERSECT':
        return evaluate_ast(node.left, code2set) & evaluate_ast(node.right, code2set)


class StockSetExpression:
    # exp_str: 表达式的字符串
    def __init__(self, exp_str):
        exp_str = exp_str
        tokens = tokenize(exp_str)  # 词法分析，得到token序列
        self.ast = parse_expression(tokens)   # 语法分析，得到抽象语法树

    # 表达式求值
    # code2set: 指数/股票组代码到股票代码集合的转换方法
    def evaluate(self, code2set):
        return evaluate_ast(self.ast, code2set)     # 遍历抽象语法树计算表达式的值

    # 返回股票集code列表
    def get_stock_set_codes(self):
        ret = []
        def dfs(node):
            if node.type == 'STOCKSET':
                ret.append(node.value)
            else:
                if node.left:
                    dfs(node.left)
                if node.right:
                    dfs(node.right)
        dfs(self.ast)
        return ret



# test
if __name__ == "__main__":
    def bind(func, *args, **kw):
        return lambda *_args, **_kw: func(*args, *_args, **kw, **_kw)

    # expression = "(000300.SH + 000905.SH) & 000852.SH - 399006.SZ"
    expression = "000300.SH + 000905.SH & 000852.SH - 399006.SZ"

    # 得到股票成分股集合
    def get_index_con(index_code, trade_date):
        if index_code == "000300.SH":
            return {"000001.SZ", "000002.SZ", "000003.SZ"}
        if index_code == "000905.SH":
            return {"000002.SZ", "000003.SZ", "000004.SZ"}
        if index_code == "000852.SH":
            return {"000003.SZ", "000004.SZ", "000005.SZ"}
        if index_code == "399006.SZ":
            return {"000004.SZ", "000005.SZ", "000006.SZ"}

    # 创建一个表达式对象，实际上就是做好词法分析语法分析，把抽象语法树结构建出来
    exp_obj = StockSetExpression(expression)
    print("Result of {}: {}".format(
        expression,
        # 表达式求值，实际上就是遍历树，传入的是叶子结点的求值方式，也就是具体的指数如何取得当日成分股
        exp_obj.evaluate(bind(get_index_con, trade_date='2024-12-17'))
        ))

    print(exp_obj.get_stock_set_codes())

    # 这样就把建立树结构和每天求表达式的值分离，从而不需要每天都重新parse表达式
    # 同时又把具体的求指数成分股的函数从表达式求值的过程中分离成可以从外部指定