Python

2021-12-06 22:13:06 -03:00
parent 9d2504f016
commit 34b429530f
6 changed files with 837 additions and 0 deletions
--- a/python/data/EECCvirtual-Visa.pdf
+++ b/python/data/EECCvirtual-Visa.pdf
--- a/python/src/ai/dictionary.py
+++ b/python/src/ai/dictionary.py
@ -0,0 +1,285 @@
+import json
+import os
+
+import numpy as np
+import sklearn
+import enlighten
+from sklearn.preprocessing import LabelEncoder
+
+import src.contabilidad.pdf as pdf
+import src.contabilidad.text_handler as th
+from src.ai.models import Phrase, phrase_factory, Word, word_factory
+from src.contabilidad.log import LOG_LEVEL
+
+
+class Dictionary:
+    def __init__(self, filename, logger):
+        self.filename = filename
+        self._logger = logger
+        self.__processed = []
+        self.__phrases = None
+        self.__words = None
+        self.load()
+
+    def load(self):
+        if not os.path.isfile(self.filename):
+            return
+        with open(self.filename, 'r') as file:
+            data = json.load(file)
+            if 'words' in data.keys():
+                self.__words = []
+                [self.__words.append(word_factory(w)) for w in data['words']]
+            if 'phrases' in data.keys():
+                self.__phrases = []
+                [self.__phrases.append(phrase_factory(ph)) for ph in data['phrases']]
+            if 'processed' in data.keys():
+                self.__processed = []
+                self.__processed = data['processed']
+
+    def save(self):
+        self.sort_words()
+        self.sort_phrases()
+        with open(self.filename, 'w') as file:
+            json.dump(self.to_json(), file, indent=2)
+
+    def to_data(self):
+        encoder = LabelEncoder()
+        data = encoder.fit_transform([w.get_word() for w in self.get_words()])
+        [self.__words[i].set_fit(f) for i, f in enumerate(data)]
+        print(data)
+        # return [ph.to_data() for ph in self.get_phrases()]
+
+    def to_json(self):
+        output = {
+            'processed': [],
+            'words': [],
+            'phrases': []
+        }
+        if self.__processed is not None and len(self.__processed) > 0:
+            output['processed'] = self.__processed
+        if self.__words is not None and len(self.__words) > 0:
+            output['words'] = [w.to_json() for w in self.__words]
+        if self.__phrases is not None and len(self.__phrases) > 0:
+            output['phrases'] = [p.to_json() for p in self.__phrases]
+        return output
+
+    def find_phrase(self, phrase: Phrase = None, phrase_dict: dict = None, phrase_list: list = None):
+        if not self.__phrases:
+            return -1
+        if phrase is not None:
+            phrase_list = [w.get_word() for w in phrase.get_words()]
+        elif phrase_dict is not None:
+            phrase_list = phrase_dict['words']
+        elif phrase_list is not None:
+            pass
+        else:
+            return -1
+        return find_phrase(self.__phrases, phrase_list)
+
+    def add_phrase(self, phrase: Phrase = None, phrase_dict: dict = None, phrase_list: list = None):
+        if self.__phrases is None:
+            self.__phrases = []
+        if phrase is not None:
+            pass
+        elif phrase_dict is not None:
+            phrase = phrase_factory(phrase_dict)
+        elif phrase_list is not None:
+            phrase = phrase_factory({'words': phrase_list})
+        else:
+            return self
+        i = self.find_phrase(phrase)
+        if i > -1:
+            self.__phrases[i].add_freq()
+            return self
+        self.__phrases.append(phrase)
+        return self
+
+    def add_phrases(self, phrase_list: list):
+        if self.__phrases is None:
+            self.__phrases = []
+        phs = [sorted(w.get_word() for w in p) for p in self.__phrases]
+        with enlighten.get_manager() as manager:
+            with manager.counter(total=len(phrase_list), desc='Phrases', unit='phrases', color='green') as bar1:
+                for i, phrase in enumerate(phrase_list):
+                    # print(f'Adding phrase {i}.')
+                    p2 = sorted([w.get_word() for w in phrase])
+                    if p2 in phs:
+                        k = phs.index(p2)
+                        self.__phrases[k].add_freq()
+                        continue
+                    ph = phrase_factory({'words': phrase})
+                    self.__phrases.append(ph)
+                    phs.append(p2)
+                    bar1.update()
+
+    def get_phrases(self):
+        return self.__phrases
+
+    def sort_phrases(self):
+        if self.__phrases is None:
+            return
+        try:
+            def sort_phrase(p):
+                if p is None:
+                    return 0
+                if isinstance(p, Phrase):
+                    return p.get_freq(), p.get_type().get_desc(), len(p.get_words())
+                return p['frequency'], p['type']['description'], len(p['words'])
+            self.__phrases = sorted(self.__phrases,
+                                    key=sort_phrase)
+        except Exception as e:
+            self._logger.log(repr(self.__phrases), LOG_LEVEL.ERROR)
+            self._logger.log(e)
+        return self
+
+    def sort_words(self):
+        if self.__words is None:
+            return
+        try:
+            def sort_word(w):
+                if w is None:
+                    return 0
+                if isinstance(w, Word):
+                    return w.get_freq(), w.get_type().get_desc(), w.get_word()
+                return w['frequency'], w['type']['description'], w['word']
+            self.__words = sorted(self.__words, key=sort_word, reverse=True)
+        except Exception as e:
+            self._logger.log(repr(self.__words))
+            self._logger.log(e)
+        return self
+
+    def find_word(self, word: Word = None, word_dict: dict = None, word_str: str = None):
+        if not self.__words:
+            return -1
+        if word is not None:
+            word_str = word.get_word()
+        elif word_dict is not None:
+            word_str = word_dict['word']
+        elif word_str is not None:
+            pass
+        else:
+            return -1
+
+        return find_word(self.__words, word_str)
+
+    def add_word(self, word: Word = None, word_dict: dict = None, word_str: str = None):
+        if self.__words is None:
+            self.__words = []
+        if word is not None:
+            pass
+        elif word_dict is not None:
+            word = word_factory(word_dict)
+        elif word_str is not None:
+            word = word_factory({'word': word_str})
+        else:
+            return self
+        i = self.find_word(word)
+        if i > -1:
+            self.__words[i].add_freq()
+            return self
+        self.__words.append(word)
+        return self
+
+    def add_words(self, words: list):
+        [self.add_word(word=w) for w in words if isinstance(w, Word)]
+        [self.add_word(word_dict=w) for w in words if isinstance(w, dict)]
+        [self.add_word(word_str=w) for w in words if isinstance(w, str)]
+        return self
+
+    def get_words(self):
+        return filter_unique_words(self.__words)
+
+    def match_words(self, word_list: list):
+        new_list = []
+        for w in word_list:
+            wi = self.find_word(word_str=w)
+            new_list.append(self.__words[wi])
+        return new_list
+
+    def append_to_phrase(self, seed: list = None, length: int = 1):
+        if seed is None:
+            return [self.__words[0]]
+        max_index = max(seed) + length
+        if max_index > len(self.__words):
+            if length == 1:
+                return False
+            return self.append_to_phrase(seed, length - 1)
+        return seed + self.__words[max_index]
+
+    def get_possible_phrases(self, word_list):
+        print('Adding words.')
+        self.add_words(word_list)
+
+        print('Creating phrases.')
+        with enlighten.get_manager() as manager:
+            with manager.counter(total=len(word_list)**2, desc='Phrases', unit='words', color='red') as bar1:
+                phrases = []
+                for length in range(1, len(word_list) + 1):
+                    bar2 = bar1.add_subcounter(color='green')
+                    for start in range(0, len(word_list)):
+                        phrase = build_phrase(word_list, start, start + length)
+                        phrase = self.match_words(phrase)
+                        phrases.append(phrase)
+                        start += length
+                        bar2.update()
+                    bar1.update()
+
+        print(f'Created {len(phrases)} phrases.')
+        phrases = sorted(phrases, key=lambda e: len(e))
+
+        print('Adding phrases.')
+        # Really slow (~115000 phrases in one pdf)
+        self.add_phrases(phrases)
+        return self.__phrases
+
+    def is_processed(self, filename: str):
+        return os.path.basename(filename) in self.__processed
+
+    def process(self, filename: str, password: str = None):
+        if self.is_processed(filename):
+            print('Already processed.')
+            return
+        t = filename.split('.')
+        temp = os.path.realpath(os.path.join(os.path.dirname(filename), t[0] + '-temp.pdf'))
+        print('Removing PDF encryption.')
+        pdf.remove_encryption(filename, password, temp)
+        print('Getting text')
+        obj = pdf.get_text(temp)
+        os.remove(temp)
+        print('Getting possible phrases.')
+        phrases = self.get_possible_phrases(th.split_words(obj))
+        self.__processed.append(os.path.basename(filename))
+        return phrases
+
+
+def build_phrase(word_list, start: int, end: int = None):
+    if end is None:
+        return word_list[start:]
+    return word_list[start:end]
+
+
+def filter_unique_words(words):
+    new_list = []
+    for w in words:
+        if w not in new_list:
+            new_list.append(w)
+    return new_list
+
+
+def validate_phrase(phrase):
+    return True
+
+
+def find_phrase(phrases: list, phrase: list):
+    phrase_list = [sorted([w.get_word() for w in p.get_words()]) for p in phrases]
+    sphrase = sorted(phrase)
+    if sphrase in phrase_list:
+        return phrase_list.index(sphrase)
+    return -1
+
+
+def find_word(words: list, word: str):
+    word_list = [w.get_word() for w in words]
+    if word in word_list:
+        return word_list.index(word)
+    return -1
--- a/python/src/ai/models.py
+++ b/python/src/ai/models.py
@ -0,0 +1,243 @@
+import json
+
+
+class Type:
+    def __init__(self, _id, _description):
+        self.__id = _id
+        self.__description = _description
+
+    def get_id(self):
+        return self.__id
+
+    def get_desc(self):
+        return self.__description
+
+    def to_json(self):
+        return self.get_id()
+
+    def __repr__(self):
+        return json.dumps({
+            'id': self.get_id(),
+            'description': self.get_desc()
+        })
+
+
+def type_factory(_type: str, _id: int):
+    if _type == 'Word' or _type == 'WordType':
+        t = WordType()
+    elif _type == 'Phrase' or _type == 'PhraseType':
+        t = PhraseType()
+    else:
+        return None
+    t.load(_id)
+    return t
+
+
+class WordType(Type):
+    STRING = 0
+    NUMERIC = 1
+    CURRENCY = 2
+    DATE = 4
+
+    def __init__(self):
+        super().__init__(0, 'string')
+
+    def load(self, word_type: int):
+        if word_type == self.STRING:
+            self.__description = 'string'
+        elif word_type == self.NUMERIC:
+            self.__description = 'numeric'
+        elif word_type == self.CURRENCY:
+            self.__description = 'currency'
+        elif word_type == self.DATE:
+            self.__description = 'date'
+        return self
+
+
+class PhraseType(Type):
+    TEXT = 0
+    TITLE = 1
+    HEADER = 2
+    MOVEMENT = 4
+    INVALID = 99
+
+    def __init__(self):
+        super(PhraseType, self).__init__(0, 'text')
+
+    def load(self, phrase_type: int):
+        if phrase_type == self.TEXT:
+            self.__description = 'text'
+        elif phrase_type == self.TITLE:
+            self.__description = 'title'
+        elif phrase_type == self.HEADER:
+            self.__description = 'header'
+
+
+class Word:
+    def __init__(self):
+        self.__id = 0
+        self.__word = None
+        self.__type_id = 0
+        self.__type = None
+        self.__frequency = 1
+
+    def set_id(self, idx: int):
+        self.__id = idx
+        return self
+
+    def set_word(self, word: str):
+        self.__word = word
+        return self
+
+    def set_type(self, word_type):
+        if isinstance(word_type, WordType):
+            self.__type_id = word_type.get_id()
+            # self.__type = word_type
+        if isinstance(word_type, int):
+            self.__type_id = word_type
+            # self.__type = type_factory('Word', word_type)
+        return self
+
+    def add_freq(self, amount: int = 1):
+        self.__frequency += amount
+        return self
+
+    def get_id(self) -> int:
+        return self.__id
+
+    def get_word(self) -> str:
+        return self.__word
+
+    def get_type_id(self) -> int:
+        return self.__type_id
+
+    def get_type(self) -> WordType:
+        if self.__type is None:
+            self.__type = type_factory('Word', self.__type_id)
+        return self.__type
+
+    def get_freq(self) -> int:
+        return self.__frequency
+
+    def to_json(self) -> dict:
+        output = {
+            'id': self.get_id(),
+            'word': self.get_word(),
+            'type': self.get_type_id(),
+            'freq': self.get_freq()
+        }
+        return output
+
+    def __repr__(self):
+        return json.dumps(self.to_json())
+
+
+def word_factory(word: dict) -> Word:
+    w = Word()
+    w.set_id(word['id'])
+    w.set_word(word['word'])
+    if 'type' in word:
+        w.set_type(word['type'])
+    if 'freq' in word:
+        w.add_freq(word['freq'] - 1)
+    return w
+
+
+class Phrase:
+    def __init__(self):
+        self.__id = 0
+        self.__words = None
+        self.__type_id = 0
+        self.__type = None
+        self.__frequency = 1
+
+    def set_id(self, idx: int):
+        self.__id = idx
+        return self
+
+    def add_word(self, word):
+        if isinstance(word, Word):
+            self.__words.append(word.get_id())
+        if isinstance(word, dict):
+            if 'id' in word:
+                self.__words.append(word['id'])
+        if isinstance(word, int):
+            self.__words.append(word)
+        return self
+
+    def set_words(self, words: list):
+        if self.__words is None:
+            self.__words = []
+        for w in words:
+            if isinstance(w, Word):
+                self.add_word(w)
+            if isinstance(w, dict):
+                self.add_word(w)
+            if isinstance(w, int):
+                self.add_word(w)
+        return self
+
+    def set_type(self, phrase_type):
+        if isinstance(phrase_type, PhraseType):
+            self.__type_id = phrase_type.get_id()
+            # self.__type = phrase_type
+        if isinstance(phrase_type, int):
+            self.__type_id = phrase_type
+            # self.__type = type_factory('Phrase', phrase_type)
+        return self
+
+    def add_freq(self, amount: int = 1):
+        self.__frequency += amount
+        return self
+
+    def get_id(self) -> int:
+        return self.__id
+
+    def get_words(self) -> list:
+        return self.__words
+
+    def get_type_id(self) -> int:
+        return self.__type_id
+
+    def get_type(self) -> PhraseType:
+        if self.__type is None:
+            self.__type = type_factory('Phrase', self.__type_id)
+        return self.__type
+
+    def get_freq(self) -> int:
+        return self.__frequency
+
+    def match(self, word_list: list):
+        if len(word_list) != len(self.__words):
+            return False
+        new_words = sorted(self.__words)
+        new_list = sorted(word_list)
+        if new_words == new_list:
+            return True
+        return False
+
+    def to_json(self):
+        output = {
+            'id': self.get_id(),
+            'words': self.get_words(),
+            'type': self.get_type_id(),
+            'freq': self.get_freq()
+        }
+        return output
+
+    def __repr__(self):
+        return json.dumps(self.to_json())
+
+    def __len__(self):
+        return len(self.get_words())
+
+
+def phrase_factory(phrase: dict) -> Phrase:
+    ph = Phrase()
+    ph.set_id(phrase['id'])
+    ph.set_words(phrase['words'])
+    if 'type' in phrase:
+        ph.set_type(phrase['type'])
+    if 'freq' in phrase:
+        ph.add_freq(phrase['freq'] - 1)
+    return ph
--- a/python/src/ai/network.py
+++ b/python/src/ai/network.py
@ -0,0 +1,123 @@
+import json
+import os
+import tensorflow as tf
+import sklearn
+import numpy as np
+from sklearn.preprocessing import LabelEncoder
+
+import src.contabilidad.pdf as pdf
+import src.contabilidad.text_handler as th
+
+
+class Layer:
+    def __init__(self):
+        self.__weights = None
+        self.__bias = None
+
+    def set_size(self, inputs: int, size: int):
+        self.__weights = [[0 for j in range(0, inputs)] for i in range(0, size)]
+        self.__bias = [0 for i in range(0, size)]
+
+    def add_weight(self, vector: list, idx: int = None):
+        if idx is None:
+            self.__weights.append(vector)
+            return self
+        self.__weights = self.__weights[:idx] + [vector] + self.__weights[idx:]
+        return self
+
+    def set_weight(self, value: float, weight_index: int, input_index: int):
+        self.__weights[weight_index][input_index] = value
+
+    def set_bias(self, value: list):
+        self.__bias = value
+
+    def train(self, input_values: list, output_values: list):
+        output = self.get_output(input_values)
+        errors = []
+        for i, v in enumerate(output):
+            error = (output_values[i] - v) / output_values[i]
+            new_value = v * error
+
+    def to_json(self):
+        return {
+            'bias': self.__bias,
+            'weights': self.__weights
+        }
+
+    def get_output(self, vector: list):
+        output = []
+        for i, weight in enumerate(self.__weights):
+            val = 0
+            for j, v in enumerate(weight):
+                val += v * vector[j]
+            output[i] = val + self.__bias[i]
+        return output
+
+
+def layer_factory(layer_dict: dict):
+    layer = Layer()
+    layer.set_bias(layer_dict['bias'])
+    [layer.add_weight(w) for w in layer_dict['weights']]
+    return layer
+
+
+class Network:
+    def __init__(self, filename: str):
+        self._filename = filename
+        self.__layers = None
+
+    def load(self):
+        with open(self._filename) as f:
+            data = json.load(f)
+            if 'layers' in data.keys():
+                self.add_layers(data['layers'])
+
+    def add_layers(self, layers: list):
+        for lr in layers:
+            layer = layer_factory(lr)
+            self.__layers.append(layer)
+
+
+class AI:
+    def __init__(self, dictionary_filename, logger):
+        self.__dict = None
+        self.__network = None
+        self.__sources = None
+        self.filename = ''
+
+    def add_source(self, text):
+        if self.__sources is None:
+            self.__sources = []
+        self.__sources.append(text)
+        return self
+
+    def set_filename(self, filename: str):
+        self.filename = filename
+        return self
+
+    def process_sources(self):
+        for source in self.__sources:
+            self.process(**source)
+
+    def process(self, filename, password):
+        encoder = LabelEncoder()
+        t = filename.split('.')
+        temp = os.path.realpath(os.path.join(os.path.dirname(filename), t[0] + '-temp.pdf'))
+        pdf.remove_encryption(filename, password, temp)
+        obj = pdf.get_text(temp)
+        os.remove(temp)
+        word_list = th.split_words(obj)
+        fits = encoder.fit_transform(word_list)
+        print(fits)
+        phrases = []
+        for length in range(1, len(word_list) + 1):
+            for start in range(0, len(word_list)):
+                phrase = word_list[start:(start + length)]
+                phrase = np.append(np.array([fits[word_list.index(w)] for w in phrase]),
+                                   np.zeros([len(word_list) - len(phrase)]))
+                phrases.append(phrase)
+        phrases = np.array(phrases)
+        print(phrases.shape)
+
+    def active_train(self):
+        pass
--- a/python/src/ai/phrase.py
+++ b/python/src/ai/phrase.py
@ -0,0 +1,102 @@
+import json
+from src.ai.word import Word, WordType
+
+
+class PhraseType:
+    TEXT = 0
+    TITLE = 1
+    HEADER = 2
+    MOVEMENT = 3
+    INVALID = 99
+
+    def __init__(self):
+        self.__id = 0
+        self.__description = 'text'
+
+    def get_id(self):
+        return self.__id
+
+    def get_desc(self):
+        return self.__description
+
+    def to_json(self):
+        return self.__id
+
+    def load(self, phrase_id: int):
+        self.__id = phrase_id
+        if phrase_id == self.TITLE:
+            self.__description = 'title'
+        elif phrase_id == self.HEADER:
+            self.__description = 'header'
+        elif phrase_id == self.MOVEMENT:
+            self.__description = 'movement'
+        elif phrase_id == self.INVALID:
+            self.__description = 'invalid'
+        return self
+
+
+def phrase_factory(phrase: list, phrase_type: int = None, frec: int = 1):
+    pt = PhraseType()
+    if phrase_type is not None:
+        pt.load(phrase_type)
+    ph = Phrase()
+    ph.set_phrase(phrase).set_type(pt).add_frec(frec - 1)
+    return ph
+
+
+class Phrase:
+    def __init__(self):
+        self.__phrase = None
+        self.__type = None
+        self.__frec = 1
+
+    def to_json(self):
+        return {
+            'phrase': [w.to_json() for w in self.__phrase],
+            'type': self.__type.to_json(),
+            'frec': self.__frec
+        }
+
+    def set_phrase(self, phrase: list):
+        [self.add_word(w) for w in phrase]
+        return self
+
+    def get_phrase(self):
+        return self.__phrase
+
+    def set_type(self, phrase_type: PhraseType):
+        self.__type = phrase_type
+        return self
+
+    def get_type(self):
+        return self.__type
+
+    def add_word(self, word: Word, pos: int = None):
+        if self.__phrase is None:
+            self.__phrase = []
+        if pos is None:
+            self.__phrase.append(word)
+            return self
+        self.__phrase = self.__phrase[:pos] + [word] + self.__phrase[pos:]
+        return self
+
+    def add_frec(self, amount: int = 1):
+        self.__frec += amount
+
+    def match(self, words: list):
+        if len(words) != len(self.__phrase):
+            return False
+        for w in self.__phrase:
+            if w not in words:
+                return False
+        return True
+
+    def __repr__(self):
+        print(self.__phrase)
+        return json.dumps({
+            'phrase': [w.to_json() for w in self.get_phrase()],
+            'type': self.get_type().get_desc()
+        })
+
+    def __len__(self):
+        return len(self.__phrase)
--- a/python/src/ai/word.py
+++ b/python/src/ai/word.py
@ -0,0 +1,84 @@
+import json
+
+
+class WordType:
+    STRING = 0
+    NUMERIC = 1
+    CURRENCY = 2
+    DATE = 3
+
+    def __init__(self):
+        self.__id = 0
+        self.__description = 'string'
+
+    def to_json(self):
+        return self.__id
+
+    def load(self, word_id: int):
+        self.__id = word_id
+        if word_id == self.NUMERIC:
+            self.__description = 'numeric'
+        elif word_id == self.CURRENCY:
+            self.__description = 'currency'
+        elif word_id == self.DATE:
+            self.__description = 'data'
+        return self
+
+    def get_id(self):
+        return self.__id
+
+    def get_desc(self):
+        return self.__description
+
+    def __repr__(self):
+        return {
+            'id': self.get_id(),
+            'description': self.get_desc()
+        }
+
+
+def word_factory(word: str, word_type: int = None, frec: int = 1):
+    wt = WordType()
+    if word_type is not None:
+        wt.load(word_type)
+    w = Word()
+    w.set_word(word).set_type(wt).add_frec(frec - 1)
+    return w
+
+
+class Word:
+    def __init__(self):
+        self.__word = None
+        self.__type = None
+        self.__frec = 1
+
+    def to_json(self):
+        return {
+            'word': self.__word,
+            'type': self.__type.to_json(),
+            'frec': self.__frec
+        }
+
+    def set_word(self, word: str):
+        self.__word = word
+        return self
+
+    def get_word(self):
+        return self.__word
+
+    def set_type(self, word_type: WordType):
+        self.__type = word_type
+        return self
+
+    def get_type(self):
+        return self.__type
+
+    def add_frec(self, amount: int = 1):
+        self.__frec += amount
+        return self
+
+    def __repr__(self):
+        return json.dumps({
+            'word': self.get_word(),
+            'type': self.get_type().get_desc()
+        })