Generación de analizador

Estoy haciendo un proyecto en SOFWARE PLAGIARISM DETECTION … estoy destinado a hacerlo con el lenguaje C … para eso se supone que debo crear un generador de token, y un analizador … pero no sé por dónde empezar … cualquiera puede ayudame con esto ..

Creé una base de datos de tokens y separé los tokens de mi progtwig. Lo siguiente que quiero hacer es comparar dos progtwigs para averiguar si está plagiado o no. Para eso necesito crear un analizador de syntax. No sé por dónde empezar …

es decir, quiero crear un analizador para progtwigs en python

Si desea crear un analizador en Python, puede consultar estas bibliotecas:
CAPA
pyparsing
y Lepl – nuevo pero muy potente

Construir un analizador de C real por ti mismo es una tarea realmente grande.

Te sugiero que encuentres uno que ya esté hecho, por ejemplo. pycparser o define un subconjunto de C realmente simple que se puede analizar fácilmente.

Tendrá mucho trabajo por hacer para su detector de plagio después de que haya terminado de analizar C.

No estoy seguro de que necesite analizar la secuencia de token para detectar las funciones que está buscando. De hecho, probablemente va a complicar las cosas más que nada.

lo que realmente busca es secuencias de código fuente original que tienen una gran similitud con un código de muestra sospechoso que se está probando. Esto suena muy similar al propósito de un clasificador de Bayes , como los utilizados en el filtrado de spam y la detección de idioma.