Metadata-Version: 1.1
Name: TEDT
Version: 0.5
Summary: News Title Extraction Algorithm Based on Density and Text Features
Home-page: https://github.com/pzs741/TEDT
Author: ZhenSheng Peng
Author-email: pzsyjsgldd@163.com
License: MIT
Description: TEDT
        ========
        TEDT：基于密度及文本特征的新闻标题抽取算法
        
        
        特点
        ========
        * 自适应模式：可以自动适应松散或者紧密的网页结构；
        * 日志信息：可以自己设置日志等级，监测算法内部细节和计算流程；
        * 配置信息：可以自己配置正文文本行的范围，标题长度范围。
        * MIT 授权协议
        
        
        安装说明
        =======
        
        代码仅对 Python3 兼容
        
        * 全自动安装：`easy_install TEDT` 或者 `pip install TEDT` / `pip3 install TEDT`
        * 半自动安装：先下载 http://pypi.python.org/pypi/TEDT/ ，解压后运行 `python setup.py install`
        * 手动安装：将 TEDT 目录放置于当前目录或者 site-packages 目录
        * 通过 `import TEDT` 来引用
        
        算法
        ========
        * 为从大量的复杂非规范网页结构中自动抽取出新闻标题，本文提出一种基于密度和文本特征的新闻标题抽取算法。
        * 主要通过融合网页文本密度分布和语言特征的语料判定模型，将网页划分为语料区和标题候选区，选取语料后通过TextRank算法计算对应的key-value权重集合，最后采用改进的相似度计算方法从标题候选区抽取新闻标题。
        * 该算法能有效划分语料和标题区域，降低网页噪声干扰，准确抽取出新闻标题。
        
        主要功能
        =======
        1. 抽取标题、正文、发布时间
        --------
        * `TEDT`实例化需要至少接受一个参数：url
        * `TEDT`实例化接受一个参数即url时的默认配置为
        
        - CENTER_DISTANCE_MIN = 0  #最小文本行间距
        - CENTER_DISTANCE_MAX = 10  # 最大文本行间距
        - TITLE_MIN_LENGTH = 5  # 最小标题长度
        - TITLE_MAX_LENGTH = 50  # 最大标题长度
        - LOG_ENABLE = True  # 是否开启日志
        - LOG_LEVEL  = 'WARNING' #默认日志等级
        - ADAPTIVE = True #是否自适应网页密度结构
        
        2. 代码示例
        --------
        
            >>> from TEDT import TEDT
            >>> url = 'http://www16.zzu.edu.cn/msgs/vmsgisapi.dll/onemsg?msgid=1712291126498126051'
            >>> t = TEDT(url, LOG_LEVEL='INFO',)
            >>> t.ie()
            >>> print(t.corpus)
            日前，日本驻华大使馆经济部一等秘书上田智一、日本科学技术振兴机构（jst）北京事务所所长茶山秀一、日本理化学研究所（riken）。。。
            >>> print(t.title)
            日本科技代表团来校访问交流（图）
        	>>> print(t.time)
            2017-12-29
        
        3. 实例测试
        --------
        - from TEDT import TEDT
        
        - urls = [
            'http://www.cankaoxiaoxi.com/china/20170630/2158196.shtml',  # 参考消息
            'http://news.ifeng.com/a/20180121/55332303_0.shtml',  # 凤凰资讯
            'http://china.huanqiu.com/article/2018-01/11541273.html',  # 环球网
            'http://news.china.com/socialgd/10000169/20180122/31990621.html',  # 中华网
            'http://www.thepaper.cn/newsDetail_forward_1962275',  # 澎湃新闻
            # 'http://news.szu.edu.cn/info/1003/4989.htm',  # 深圳大学新闻网
            'http://www16.zzu.edu.cn/msgs/vmsgisapi.dll/onemsg?msgid=1712291126498126051',  # 郑州大学新闻网
            'http://news.ruc.edu.cn/archives/194824',  # 人民大学新闻网
            'http://xinwen.ouc.edu.cn/Article/Class3/xwlb/2018/01/22/82384.html',  # 中国海洋大学新闻网
            'http://news.sjtu.edu.cn/info/1002/1645201.htm',  # 上海交通大学新闻网
        ]
        - for url in urls:
        -     t = TEDT(url, LOG_LEVEL='INFO',)
        -     t.ie()
        
        - INFO:------------------------------TEDT------------------------------
        - INFO:标题：【港媒称人工智能改变内地人生活：神奇老师深受小学生喜爱】
        - INFO:时间：【2017-06-30】
        - INFO:正文：【核心提示：家豪的故事表明，ai正在改变现代社会，这项技术正在慢慢从发明新奇的产品，向发明改变日常生活的应用程序转变.。。。
        - INFO:*****************************************************************
        - INFO:------------------------------TEDT------------------------------
        - INFO:标题：【各地干部群众热议十九届二中全会公报】
        - INFO:时间：【2018-01-21】
        - INFO:正文：【原标题：为新时代中国特色社会主义提供有力宪法保障——各地干部群众热议党的十九届二中全会公报新华社北京1月21日电(新华社记者)“。。。
        - INFO:*****************************************************************
        - INFO:------------------------------TEDT------------------------------
        - INFO:标题：【各地干部群众热议党的十九届二中全会公报】
        - INFO:时间：【2018-01-21】
        - INFO:正文：【新华社北京1月21日电题：为新时代中国特色社会主义提供有力宪法保障——各地干部群众热议党的十九届二中全会公报新华社记者“。。。
        - INFO:*****************************************************************
        - INFO:------------------------------TEDT------------------------------
        - INFO:标题：【北京干渴90天终迎初雪雪后气温骤跌将遇冰冻周】
        - INFO:时间：【2018-01-22】
        - INFO:正文：【中国天气网讯期盼已久的北京初雪终于来了！昨晚（21日）随着降雪范围逐渐扩大，北京迎来了今冬初雪。受降雪影响，。。。
        - INFO:*****************************************************************
        - INFO:------------------------------TEDT------------------------------
        - INFO:标题：【又有45所高校要改名，你的母校还是你的母校吗】
        - INFO:时间：【2018-01-22】
        - INFO:正文：【超大大标准小高校改名近些年来方兴未艾，2018年又有45所高校可能变更校名。1月20日，教育部发展规划司正式公布了2017年。。。
        - INFO:*****************************************************************
        - INFO:------------------------------TEDT------------------------------
        - INFO:标题：【日本科技代表团来校访问交流（图）】
        - INFO:时间：【2017-12-29】
        - INFO:正文：【日前，日本驻华大使馆经济部一等秘书上田智一、日本科学技术振兴机构（jst）北京事务所所长茶山秀一、日本理化学研究所（riken）。。。
        - INFO:*****************************************************************
        - INFO:------------------------------TEDT------------------------------
        - INFO:标题：【中国人民大学召开年度校级领导班子民主生活会】
        - INFO:时间：【2018-01-22】
        - INFO:正文：【按照中央统一部署和要求，1月17日，中国人民大学召开2017年度校级领导班子民主生活会。中央组织部副部长周祖翼全程参加并指导民主生活会，。。。
        - INFO:*****************************************************************
        - INFO:------------------------------TEDT------------------------------
        - INFO:标题：【中国海洋大学第十九届“天泰优秀人才奖”、“天泰奖学金”颁奖仪式举行】
        - INFO:时间：【2018-01-22】
        - INFO:正文：【本站讯1月19日下午，中国海洋大学第十九届“天泰优秀人才奖”、“天泰奖学金”颁奖仪式在崂山校区举行。天泰公益基金会秘书长张织云。。。
        - INFO:*****************************************************************
        - INFO:------------------------------TEDT------------------------------
        - INFO:标题：【高校思想政治理论课实地教学观摩在上海交大举行[图]】
        - INFO:时间：【2018-01-18】
        - INFO:正文：【为深入学习贯彻落实党的十九大精神，深入推动习近平新时代中国特色社会主义思想进教材进课堂进头脑，不断提高思政课建设的质量和水平。。。
        - INFO:*****************************************************************
        
Platform: UNKNOWN
Classifier: Programming Language :: Python :: 3
Classifier: Natural Language :: English
Classifier: Intended Audience :: Developers
