Metadata-Version: 2.1
Name: ViNLP
Version: 1.1.1
Summary: NLP package for Vietnamese
Home-page: https://github.com/hieunguyen1053/ViNLP
Author: Hieu Nguyen
Author-email: hieunguyen1053@outlook.com
License: MIT
Description: # ViNLP
        
        ## Installation
        
        To install ViNLP:
        
        ```
        $ pip install ViNLP
        ```
        
        <!-- ## F-measure
        
        ### Data VLSP 2013
        
        | Task              | F1(%) |
        | ----------------- | ----- |
        | Word segmentation | 98.64 |
        | Pos tagging       | 98.36 |
        
        ### Data VLSP 2016 (Use gold POS, Chunk label)
        
        | Task     | F1(%) |
        | -------- | ----- |
        | Chunking | 98.78 |
        | NER      | 92.69 | -->
        
        ## Tutorials
        
        - [1. Word Segmentation](#1-word-segmentation)
        - [2. POS Tagging](#2-pos-tagging)
        - [3. Chunking](#3-chunking)
        - [4. Named Entity Recognition](#4-named-entity-recognition)
        
        ### 1. Word Segmentation
        
        Usage
        
        ```python
        >>> from ViNLP import word_tokenize
        >>> sentence = 'Hà Nội test nhanh SARS-CoV-2 cho hành khách từ TP.HCM đến sân bay Nội Bài'
        
        >>> word_tokenize(sentence)
        ['Hà_Nội', 'test', 'nhanh', 'SARS-CoV-2', 'cho', 'hành_khách', 'từ', 'TP.HCM', 'đến', 'sân_bay', 'Nội_Bài']
        ```
        
        ### 2. POS Tagging
        
        Usage
        
        ```python
        >>> from ViNLP import pos_tag
        >>> sentence = 'Bộ Y tế công bố kế hoạch phân bổ vaccine COVID-19 đợt 5, TP.HCM nhiều nhất'
        >>> pos_tag(sentence)
        [('Bộ', 'N'),
         ('Y_tế', 'N'),
         ('công_bố', 'V'),
         ('kế_hoạch', 'N'),
         ('phân_bổ', 'V'),
         ('vaccine', 'N'),
         ('COVID-19', 'V'),
         ('đợt', 'N'),
         ('5', 'M'),
         (',', 'CH'),
         ('TP.HCM', 'Ny'),
         ('nhiều', 'A'),
         ('nhất', 'R')]
        ```
        
        ## 3. Chunking
        
        Usage
        
        ```python
        >>> from ViNLP import chunk
        >>> sentence = 'Tổng thống Nga Putin tuyên bố sẵn sàng tiếp tục đối thoại với Mỹ'
        >>> chunk(sentence)
        [('Tổng_thống', 'N', 'B-NP'),
         ('Nga', 'Np', 'B-NP'),
         ('Putin', 'Np', 'I-NP'),
         ('tuyên_bố', 'V', 'B-VP'),
         ('sẵn_sàng', 'A', 'B-AP'),
         ('tiếp_tục', 'V', 'B-VP'),
         ('đối_thoại', 'V', 'B-VP'),
         ('với', 'E', 'B-PP'),
         ('Mỹ', 'Np', 'B-NP')]
        ```
        
        ## 4. Named Entity Recognition
        
        Usage
        
        ```python
        >>> from ViNLP import ner
        >>> sentence = 'Hậu thượng đỉnh, Tổng thống Putin nói ông Biden khác xa truyền thông miêu tả'
        >>> ner(sentence)
        [('Hậu', 'N', 'B-NP', 'O'),
         ('thượng_đỉnh', 'N', 'B-NP', 'O'),
         (',', 'CH', 'O', 'O'),
         ('Tổng_thống', 'N', 'B-NP', 'O'),
         ('Putin', 'Np', 'B-NP', 'B-PER'),
         ('nói', 'V', 'B-VP', 'O'),
         ('ông', 'Nc', 'B-NP', 'O'),
         ('Biden', 'Np', 'B-NP', 'B-PER'),
         ('khác', 'A', 'B-AP', 'O'),
         ('xa', 'A', 'B-AP', 'O'),
         ('truyền_thông', 'N', 'B-NP', 'O'),
         ('miêu_tả', 'V', 'B-VP', 'O')]
        ```
Platform: UNKNOWN
Classifier: License :: OSI Approved :: MIT License
Classifier: Programming Language :: Python :: 3
Classifier: Programming Language :: Python :: 3.8
Description-Content-Type: text/markdown
